메인 콘텐츠로 건너뛰기
Waters Korea

Progenesis QI for Proteomics 및 PLGS 중 다양한 fasta 형식 옵션의 차이점은 무엇입니까? - WKB201722

Article number: 201722To English version

환경

  • ProteinLynx Global Server(PLGS)
  • Progenesis QI for Proteomics

답변

PLGS의 New Databank 및 Edit Databank 옵션 메뉴에 있는 옵션 목록에서 Fasta 형식을 선택하라는 메시지가 표시됩니다.

clipboard_edeb6c2ac8f65e5308d4e32269ec68a6c.png

마찬가지로 Progenesis QI for Proteomics의 Identify Peptides 탭에서 fasta 파일과 해당 fasta 파일의 형식을 모두 선택하라는 메시지가 표시됩니다.

그렇다면 이러한 옵션의 차이점은 무엇이며, 표준 아미노산 서열 라이브러리 파일 형식에 대해 몇 가지 옵션이 있는 이유는 무엇입니까?

모든 옵션은 기본 fasta 형식을 따릅니다. 차이점은 fasta 파일 내 각 시퀀스의 헤더에 데이터를 정렬하는 방법입니다. FASTA 형식은 ">" 기호로 시작하는 설명 줄과 그 뒤에 따르는 60자 블록의 아미노산 문자 시퀀스를 포함하는 여러 줄로 구성됩니다. ">" 기호 다음에 따라오는 내용과 앞에 오는 내용은 내용과 내용 순서가 다를 수 있습니다. 대부분은 파이프 기호 "|", 콜론 또는 세미콜론을 사용하여 필드를 구분합니다. PLGS 및 Progenesis QI for Proteomics 모두 헤더에서 각 ID에 대한 정보를 정확하게 읽고 결과에 표시할 수 있도록 어떤 버전의 fasta 형식을 사용하고 있는지 알아야 합니다. 사용중인 fasta 파일에 맞지 않는 fasta 변형을 선택하면 결과가 약간 이상하게 보일 수 있습니다. PLGS3.0.3 library import/editor 도구에는 fasta 파일을 시퀀스 라이브러리로 가져올 때 올바른 fasta 변형을 선택했는지 확인할 수있는 테스트 버튼이 있습니다.

일반적으로 사용되는 일부 fasta 변형에 대한 설명:

FASTA STANDARD

내용 입력란: >NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

예시:

>IF3_AQUAE|O67653|SPT: Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

 

FASTA NCBI_EXPASY_STANDARD

이 형식은 아래에 표시된 2 파이프 버전과 4 파이프 버전의 두 가지 형식으로 제공됩니다. 이 특정 데이터 뱅크 형식의 설명 줄은 어떤식으로든 단축되지 않습니다. PLGS 및 PQIP의 Fasta NCBI EXPASY 표준 옵션은 2 및 4 파이프 버전을 모두 허용합니다.

내용 입력란(2 파이프): >NAME|ACCESSION_NUMBER|DATABANK_OF_ORIGIN: DESCRIPTION

내용 입력란(4 파이프): >gi|NUMBER|DATABANK_OF_ORIGIN|ACCESSION_NUMBER|LOCUS_OR_NAME DESCRIPTION

 

2 파이프 버전의 예시:

>SP|PLASM_FALCI|(P08978) metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

 

4 파이프 버전의 예시:

>gi|3845261|gb|AAC71934.1| metal binding protein (DHHC domain) [Plasmodium falciparum 3D7]

MIIWCHIKCLCTNPGFLNETFHFVSDNTTEYDNNVQMCKKCNLLKIKRSHHCSVCDKCIMKMDHHCFWIN

SCVGLYNQKYFILLNFVRTKGKYNTNIIKHL

 

FASTA STANDARD_SPACED

시퀀스 헤더에 파이프가 없습니다. 내용 입력란: >NAME ACCESSION_NUMBER DESCRIPTION

예시:

>IF3_AQUAE (O67653) Translation initiation factor IF-3.

MSKLKEYRVNRQIRAKECRLIDENGQQIGIVPIEEALKIAEEKGLDLVEIAPQAKPPVCK

IMDYGKFKYELKKKEREARKKQREHQIEVKDIRMKVRIDEHDLQVKLKHMREFLEEGDKV

KVWLRFRGRENIYPELGKKLAERIINELSDIAEVEVQPKKEGNFMIFVLAPKRKK

 

FASTA Uniprot

샘플 Uniprot 항목은 다음과 같습니다. 이 예에서, 하나의 식별 번호(Q4U9M9) 다음에 파이프 기호 "|", 항목 이름(104K_THEAN) 및 설명이 나옵니다.

>Q4U9M9|104K_THEAN 104 kDamicroneme-rhoptry antigen precursor (p104) - Theileriaannulata

MKFLVLLFNILCLFPILGADELVMSPIPTTDVQPKVTFDINSEVSSGPLYLNPVEMAGVK

YLQLQRQPGVQVHKVVEGDIVIWENEEMPLYTCAIVTQNEVPYMAYVELLEDPDLIFFLK

EGDQWAPIPEDQYLARLQQLRQQIHTESFFSLNLSFQHENYKYEMVSSFQHSIKMVVFTP

KNGHICKMVYDKNIRIFKALYNEYVTSVIGFFRGLKLLLLNIFVIDDRGMIGNKYFQLLD

DKYAPISVQGYVATIPKLKDFAEPYHPIILDISDIDYVNFYLGDATYHDPGFKIVPKTPQ

CITKVVDGNEVIYESSNPSVECVYKVTYYDKKNESMLRLDLNHSPPSYTSYYAKREGVWV

TSTYIDLEEKIEELQDHRSTELDVMFMSDKDLNVVPLTNGNLEYFMVTPKPHRDIIIVFD

GSEVLWYYEGLENHLVCTWIYVTEGAPRLVHLRVKDRIPQNTDIYMVKFGEYWVRISKTQ

YTQEIKKLIKKSKKKLPSIEEEDSDKHGGPPKGPEPPTGPGHSSSESKEHEDSKESKEPK

EHGSPKETKEGEVTKKPGPAKEHKPSKIPVYTKRPEFPKKSKSPKRPESPKSPKRPVSPQ

RPVSPKSPKRPESLDIPKSPKRPESPKSPKRPVSPQRPVSPRRPESPKSPKSPKSPKSPK

VPFDPKFKEKLYDSYLDKAAKTKETVTLPPVLPTDESFTHTPIGEPTAEQPDDIEPIEES

VFIKETGILTEEVKTEDIHSETGEPEEPKRPDSPTKHSPKPTGTHPSMPKKRRRSDGLAL

STTDLESEAGRILRDPTGKIVTMKRSKSFDDLTTVREKEHMGAEIRKIVVDDDGTEADDE

DTHPSKEKHLSTVRRRRPRPKKSSKSSKPRKPDSAFVPSIIFIFLVSLIVGIL

 

FASTA LONG_DESCRIPTION

내용 입력란: >NAME DESCRIPTION

이 형식은 설명이 매우 긴 경우에 사용됩니다. ProteinLynx 디스플레이에서 설명은 보기 영역에 맞게 잘립니다.

예시:

>gp:AL034396_1 PID:5441319 Human DNA sequence from clone 1158B12 on chromosome Xp11.21-11.4 Contains the ZXDA gene for X-linked duplicated Zinc finger A, and MYCL1 (v-myc avian myelocytomatosis viral oncogenehomolog 1, lung carcinoma derived) and KRT8 (Keratin 8, Cytokeratin 8, CYK8, Keratin type II skeletal 8) pseudogenes. Contains ESTs, an STS, GSSs and a CpG island, complete sequence; match: proteins: Sw:P98168 Sw:P98169. (gb:AL034396)

MEIPKLLPARGTLQGGGGGGIPAGGGRVHRGPDSPAGQVPTRRLLLPRGPQDGGPGRRRE

EASTASRGPGPSLFAPRPHQPSGGGDDFFLVLLDPVGGDVETAGSGQAAGPVLREEAKAG

PGLQGDESGANPAGCSAQGPHCLSAVPTPAPISAPGPAAAFAGTVTIHNQDLLLRFENGV

LTLATPPPHAWEPGAAPAQQPRCLIAPQAGFPQAAHPGDCPELRSDLLLAEPAEPAPAPA

PQEEAEGLAAALGPRGLLGSGPGVVLYLCPEALCGQTFAKKHQLKMHLLTHSSSQGQRPF

KCPLGGCGWTFTTSYKLKRHLQSHDKLRPFGCPAEGCGKSFTTVYNLKAHMKGHEQENSF

KCEVCEESFPTQAKLGAHQRSHFEPERPYQCAFSGCKKTFITVSALFSHNRAHFREQELF

SCSFPGCSKQYDKACRLKIHLRSHTGERPFLCDFDGCGWNFTSMSKLLRHKRKHDDDRRF

MCPVEGCGKSFTRAEHLKGHSITHLGTKPFVCPVAGCCARFSARSSLYIHSKKHLQDVDT

WKSRCPISSCNKLFTSKHSMKTHMVKRHKVGQDLLAQLEAANSLTPSSELTSQRQNDLSD

AEIVSLFSDVPDSTSAALLDTALVNSGILTIDVASVSSTLAGHLPANNNNSVGQAVDPPS

LMATSDPPQSLDTSLFFGTAATGFQQSSLNMDEVSSVSVGPLGSLDSLAMKNSSPEPQAL

TPSSKLTVDTDTLTPSSTLCENSVSELLTPAKAEWSVHPNSDFFGQEGETQFGFPNAAGN

HGSQKERNLITVTGSSFLV

추가 정보

id201722, SUPPLGS

id201722, SUPPLGS