Hvad er proteomer?
On december 19, 2021 by adminUniProt leverer proteomsæt af proteiner, hvis genomer er blevet fuldstændigt sekventeret.
Hvad er et proteom?
Et proteom er det sæt af proteiner, der menes at blive udtrykt af en organisme. Størstedelen af UniProt-proteomerne er baseret på oversættelsen af et fuldstændigt sekventeret genom og vil normalt omfatte sekvenser, der stammer fra ekstrakromosomale elementer såsom plasmider eller organellar genomer i organismer, hvor disse forekommer. Nogle proteomer kan også omfatte proteinsekvenser baseret på cDNA’er af høj kvalitet, som ikke kan kortlægges til den aktuelle genomsamling på grund af sekventeringsfejl eller huller. Disse indgår kun i proteomet efter manuel gennemgang af de understøttende beviser, herunder omhyggelig analyse af homologe sekvenser fra nært beslægtede organismer.
Da flere og flere genomer af den samme organisme sekventeres, har vi indført unikke proteom-identifikatorer for at skelne individuelle proteomer fra den samme taxonomi-identifikator.
Hvad er kurateringsstatus for UniProt-proteomer?
UniProt-proteomer kan omfatte både manuelt reviderede (UniProtKB/Swiss-Prot) og ikke-reviderede (UniProtKB/TrEMBL) poster. Andelen af gennemgåede poster varierer mellem proteomer og er naturligvis større for proteomer af intensivt kuraterede modelorganismer: nogle proteomer, f.eks. proteomer af <i>Saccharomyces cerevisiae</i> 288C og <i>Escherichia coli</i> stamme K12, består udelukkende af gennemgåede poster. Kuratering er en løbende proces, og proteomer opdateres regelmæssigt, efterhånden som nye oplysninger bliver tilgængelige: pseudogener og andre tvivlsomme ukarakteriserede ORF’er kan blive fjernet, og andre nyligt identificerede og karakteriserede sekvenser kan blive tilføjet.
Hvad er kilden til sekvenserne til proteomer?
De fleste UniProt-proteomer er baseret på oversættelser af indsendelser af genomsekvenser til International Nucleotide Sequence Database Consortium (INSDC).
Der er udviklet supplerende pipelines til import af proteinsekvenser i samarbejde med Ensembl for hvirveldyrarter, Ensembl Genomes for ikke-hvirveldyrarter, WormBase ParaSite for parasitære nematoder og VectorBase for genomer af patogenvektorer. Desuden importerer en ny pipeline udvalgte ikke-redundante genomer, der er annoteret af NCBI RefSeq. Disse kilder giver proteomsekvenser for en række centrale genomer af særlig interesse, hvor INSDC-indberetningen mangler annotation af genmodeller. Både INSDC- og ikke-INSDC-afledte proteomer linker tilbage til kilden via henholdsvis assemblage- og annotationssektionerne.
Da ovennævnte pipelines dækker organismer, som vi allerede har nogle sekvenser for i UniProtKB, skal disse eksisterende sekvenser afstemmes med de importerede. Proceduren fungerer på følgende måde:
- Sekvenser fra ikke-INSDC-genomer kortlægges først til deres UniProtKB-modstykker under strenge betingelser, der kræver 100 % identitet over 100 % af de to sekvensers længde. Disse poster markeres som en del af proteomet (dvs. knyttet til “Proteomes” via proteomidentifikatoren) og opdateres med en Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq-krydsreference.
- Non-INSDC-genomiske sekvenser, der ikke findes i UniProtKB, importeres til UniProtKB/TrEMBL. Disse poster markeres som en del af proteomet og har en krydsreference til den relevante ressource.
- Alle andre UniProtKB/Swiss-Prot-poster inden for proteomet, som ikke kortlægger disse ikke-INSDC-genomer, markeres som en del af proteomet.
Dermed dannes et proteom af alle UniProtKB/Swiss-Prot-poster (uanset om de kortlægger til ikke-INSDC-annoterede genomer eller ej) plus de UniProtKB/TrEMBL-poster, der kortlægger til ikke-INSDC-ressourcen for det pågældende proteom.
Disse pipelines er til dato blevet brugt til at fylde UniProtKB med yderligere sekvenser for det menneskelige proteom, større modelorganismer og andre arter af særlig interesse (se overskriften Komplette proteomer for <i>Homo sapiens</i> og <i>Mus musculus</i>).
Se også:
See also:
Hvilke sekventerede genomer er tilgængelige som proteomer på UniProt?
Portalen Proteomes tilbyder proteinsekvenssæt, der stammer fra oversættelse af fuldstændigt sekventerede genomer. Offentliggjorte genomer fra NCBI Genome bringes ind i UniProt, hvis de opfylder følgende kriterier:
- Genomet er annoteret, og der er et sæt kodningssekvenser til rådighed.
- Antallet af forudsagte kodningssekvenser falder inden for et statistisk signifikant interval af offentliggjorte proteomer fra naboarter.
Alle proteomer, der genereres på denne måde, gennemgår vores Proteomes redundansreduktions-pipeline.
Se også:
Hvor ofte udgives UniProt? Hvad er synkroniseringsforsinkelsen med andre databaser?
Hvordan hentes proteomer?
Proteomer kan hentes via Proteomes-sektionen på UniProt-webstedet, som indeholder downloadlinks til forskellige formater.
Alternativt kan alle poster, der udgør et proteom, hentes fra UniProtKB ved at søge efter proteom-identifikatoren i proteome
-feltet. En proteom-identifikator identificerer entydigt det sæt proteiner, der svarer til en enkelt samling af et fuldstændigt sekventeret genom.
For at hente proteomet for Escherichia coli (stamme K12) vil den nødvendige forespørgsel f.eks. være:
- Query: proteome:UP000000625
Bemærk venligst, at der kan være flere proteomer pr. taksonomisk identifikator. Den taksonomiske identifikator kan bruges til at forespørge i taxonomy
-feltet eller organism
-feltet sammen med krydshenvisningen til “Proteomes”. Dette vil resultere i søgning af alle proteomsekvenser på eller under den taksonomiske rang, der er angivet af identifikatoren. Hvis man f.eks. vil hente proteomet for Escherichia coli (stamme K12) og alle proteomer på lavere taksonomiske knuder (understammer som Escherichia coli (stamme K12 / DH10B)), vil den nødvendige forespørgsel være:
- Query: taxonomy:8333333 AND proteomes:*
Hvordan kan jeg downloade proteomer?
Vores FTP-server giver mulighed for at downloade forudberegnede datasæt for referenceproteomer, baseret på et gen-centreret perspektiv. For hvert referenceproteom er der protein-FASTA-filer (bestående af kanoniske og supplerende sekvenser), genmappingfiler, FASTA-filer med kodnings-DNA-sekvenser (CDS) og database-mappingfiler til rådighed. Det kan være tilrådeligt at foretrække en FTP-download af disse forudberegnede sæt frem for HTTP-download af forespørgselsresultater på webstedet, fordi HTTP-streams for store datasæt har tendens til at mislykkes efter et stykke tid på grund af pakketab.
For at downloade resultaterne af en tekstsøgning i UniProtKB:
- Klik på knappen Download
- Vælg downloadformat
For at downloade dine foretrukne proteomer programmatisk skal du gå til hjælpesiden Downloading data ved hver UniProt-udgivelse, hvor du finder et kodeeksempel, der illustrerer, hvordan du downloader proteomer for alle organismer under et givent taksonomisk knudepunkt i FASTA-format.
Bemærk, at de downloadformater, der beskriver komplette UniProtKB-posteringer (flad tekst, XML, RDF/XML), kun omfatter de “kanoniske” eller viste proteinsekvenser for UniProtKB-posteringer. Disse kanoniske sekvenser kan også downloades i FASTA-format (valgmulighed Canonical sequence data in FASTA format
), ligesom et sæt proteinsekvenser, der omfatter både kanoniske og manuelt reviderede “isoform-sekvenser” fra UniProtKB/Swiss-Prot (hvor de er tilgængelige), kan downloades ved hjælp af valgmulighed Canonical and isoform sequence data in FASTA format
.
Se også:
Skriv et svar