메인 콘텐츠로 건너뛰기
Waters Korea

Fasta 파일 무작위 추출의 기능은 무엇이며, 검색 결과에 어떤 영향을 미칩니까? - WKB1211

Article number: 1211To English version

환경

  • PLGS
  • Progenesis QI for Proteomics

답변

PLGS에서 MSe 검색을 수행할 경우, 허위 발견을 위한 dummy 항목을 생성하기 위해 Fasta 시퀀스 데이터베이스를 무작위화하는 두 가지 옵션이 있습니다.

A - Databank Library Manager에서 Randomize 버튼을 사용하여 사전 무작위 데이터뱅크를 생성하고, 결과로 생성되는 Fasta 데이터뱅크를 워크플로우에서 사용합니다.

B - 워크플로우에서 원래 Fasta 데이터뱅크를 사용합니다. 이 경우 iadbs.exe는 "즉석에서" dummy 시퀀스를 생성합니다.

Progeneis QI for Proteomics 이온 계정 데이터베이스 검색은 옵션 B를 사용합니다. 그러나 PLGS를 이용해 무작위 시퀀스를 포함하는 Fasta 파일을 생성하는 경우, Progenesis QI for Proteomics 검색 옵션에서 해당 Fasta 데이터뱅크를 지정할 수 있습니다.

A와 B를 사용하여 생성된 검색 결과를 비교하면 상당히 다를 수 있습니다. 그렇다면 두 가지가 다른 이유는 무엇이며 어떤 것이 맞습니까?

1 - PLGS Databank Library Manager에서 Randomize 버튼을 누르면 원래 Fasta 파일에서 각 아미노산의 백분율을 계산한 다음 입력 단백질과 동일한 길이 및 동일한 아미노산 분포를 가진 무작위 시퀀스를 생성합니다. 그런 다음 해당 무작위 시퀀스를 원래 단백질 목록에 추가하고 새 Fasta 파일을 저장합니다.

2 - 무작위화되지 않은 Fasta 파일로 검색을 실행할 경우, iadbs 실행 파일은 파일을 저장하지 않는 것을 제외하고 위와 완전히 동일한 프로세스를 사용하여 검색 프로세스 중에 "즉석에서" 무작위화된 항목을 생성합니다.

3 - 두 무작위화는 유사하지만 다른 무작위 단백질을 생성하기 때문에 다른 결과를 얻을 수 있습니다. 서로 다른 무작위화된 단백질은 데이터의 서로 다른 정확한 질량 머무름 시간(AMRT)과 일치할 수 있습니다. 검색은 일련의 반복적 고갈로 작동하기 때문에 AMRT가 무작위 항목과 일치하면 실제 단백질과 일치시킬 수 없습니다. 그렇기 때문에 하나의 검색에서 특정 히트가 누락된 것처럼 보일 수 있습니다. 검색의 첫 번째 단계에서 다른 실제 펩타이드 및 다른 단백질과 일치하는 경우, 두 번째 단계에서 사용된 하위 세트 데이터베이스도 달라집니다. 결과적으로, 이는 상당한 검색 차이를 생성할 수 있습니다.

4 - 사전 무작위 추출 및 "원본" Fasta 파일을 사용한 검색 간의 차이를 최소화하려면 오탐지 비율을 100%로 높입니다. 하지만 이렇게 해도 여전히 차이가 있을 수 있습니다.

5 - 하나의 검색 결과가 다른 검색 결과보다 더 맞다고 말할 수는 없으며, 한 접근 방식을 사용하는 검색 결과에서 (다른 검색 결과에 비해) 추가적인 검색 결과가 나타날 수 있습니다.

 

 

추가 정보

 

id1211, retention time, SUPPLGS

  • 이 기사가 도움이 되셨나요?