Vad är proteomer?
On december 19, 2021 by adminUniProt tillhandahåller proteomuppsättningar av proteiner vars genom har sekvenserats fullständigt.
Vad är en proteom?
En proteom är en uppsättning proteiner som tros uttryckas av en organism. Majoriteten av UniProt-proteomen baseras på översättningen av ett fullständigt sekvenserat genom, och kommer normalt att inkludera sekvenser som härrör från extrakromosomala element som plasmider eller organellära genomer i organismer där dessa förekommer. Vissa proteomer kan också innehålla proteinsekvenser baserade på cDNA:er av hög kvalitet som inte kan kartläggas till den aktuella genomsammansättningen på grund av sekvenseringsfel eller luckor. Dessa inkluderas endast i proteomen efter en manuell granskning av de stödjande bevisen, inklusive noggrann analys av homologa sekvenser från närbesläktade organismer.
I takt med att fler och fler genom av samma organism sekvenseras har vi infört unika proteomidentifierare för att särskilja enskilda proteomer från samma taxonomiidentifierare.
Vad är kureringsstatusen för UniProt-proteomerna?
UniProt-proteomerna kan innehålla både manuellt granskade (UniProtKB/Swiss-Prot) och icke granskade (UniProtKB/TrEMBL) poster. Andelen granskade poster varierar mellan proteomerna och är uppenbarligen större för proteomerna hos intensivt kurerade modellorganismer: vissa proteomerna, t.ex. de hos <i>Saccharomyces cerevisiae</i> 288C och <i>Escherichia coli</i> stam K12, består helt av granskade poster. Kurering är en fortlöpande process, och proteomerna uppdateras regelbundet när ny information blir tillgänglig: pseudogener och andra tvivelaktiga okarakteriserade ORF:er kan tas bort, andra nyligen identifierade och karakteriserade sekvenser kan läggas till.
Vad är källan till sekvenserna för proteomerna?
De flesta UniProt-proteomerna är baserade på översättningar av genomsekvensinlämningar till International Nucleotide Sequence Database Consortium (INSDC).
Kompletterande pipelines för import av proteinsekvenser har utvecklats i samarbete med Ensembl för ryggradsdjursarter, Ensembl Genomes för arter som inte är ryggradsdjur, WormBase ParaSite för parasitära nematoder och VectorBase för genomer av patogenvektorer. Dessutom importerar en ny pipeline utvalda icke-redundanta genomer som annoterats av NCBI RefSeq. Dessa källor tillhandahåller proteomsekvenser för ett antal viktiga genomer av särskilt intresse där INSDC:s inlämning saknar annotering av genmodeller. Både INSDC-proteom och icke-INSDC-proteom som härletts länkas tillbaka till källan via sektionerna för sammansättning respektive annotering.
Då de ovan nämnda pipelines täcker organismer för vilka vi redan har vissa sekvenser i UniProtKB måste dessa befintliga sekvenser stämmas av med de importerade. Förfarandet fungerar på följande sätt:
- Sekvenser från icke-INSDC-genom kartläggs först till sina motsvarigheter i UniProtKB under stränga villkor, vilket kräver 100 % identitet över 100 % av de två sekvensernas längd. Dessa poster markeras som en del av proteomet (dvs. kopplade till ”Proteomes” via proteomidentifieraren) och uppdateras med en korsreferens till Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Non-INSDC-genomsekvenser som saknas i UniProtKB importeras till UniProtKB/TrEMBL. Dessa poster markeras som en del av proteomet och har en korsreferens till lämplig resurs.
- Alla andra UniProtKB/Swiss-Prot-poster inom proteomet som inte kartlägger dessa icke-INSDC-genomsekvenser markeras som en del av proteomet.
En proteom bildas därför av alla UniProtKB/Swiss-Prot-poster (oavsett om de kartlägger icke-INSDC-annoterade genomer eller inte) plus de UniProtKB/TrEMBL-poster som kartlägger icke-INSDC-resursen för den proteomen.
Till dags dato har dessa pipelines använts för att fylla UniProtKB med ytterligare sekvenser för människans proteom, större modellorganismer och andra arter av särskilt intresse (se rubriken Kompletta proteom för <i>Homo sapiens</i> och <i>Mus musculus</i>).
Se även: Vilka sekvenserade genomer är tillgängliga som proteomer på UniProt?
Portalen Proteomes erbjuder sekvenser av proteiner som erhållits genom översättning av fullständigt sekvenserade genomer. Publicerade genomer från NCBI Genome förs in i UniProt om de uppfyller följande kriterier:
- Genomet är annoterat och en uppsättning kodande sekvenser finns tillgängliga.
- Antalet förutspådda kodande sekvenser faller inom ett statistiskt signifikant intervall av publicerade proteomer från närliggande arter.
Alla proteomer som genereras på detta sätt går igenom vår pipeline för reducering av redundans i Proteomes.
Se även:
Hur ofta släpps UniProt? Vad är synkroniseringsfördröjningen med andra databaser?
Hur hämtar man proteomer?
Proteomerna kan hämtas via avsnittet Proteomes på UniProts webbplats, där det finns nedladdningslänkar för olika format.
Alternativt kan alla poster som bildar ett proteom hämtas från UniProtKB genom att söka efter proteom-identifieraren i fältet proteome
. En proteomidentifierare identifierar unikt den uppsättning proteiner som motsvarar en enda sammansättning av ett fullständigt sekvenserat genom.
För att hämta proteomet för Escherichia coli (stam K12) skulle till exempel den nödvändiga frågan vara:
- Query: proteome:UP000000625
Bemärk att det kan finnas flera proteomer per taxonomisk identifierare. Den taxonomiska identifieraren kan användas för att fråga efter taxonomy
-fältet eller organism
-fältet, tillsammans med korshänvisningen till ”Proteomes”. Detta kommer att leda till att alla proteomsekvenser på eller under den taxonomiska rang som anges av identifieraren hämtas. Om man till exempel vill hämta proteomet för Escherichia coli (stam K12) och alla proteomsekvenser vid lägre taxonomiska noder (understammar som Escherichia coli (stam K12/DH10B)) skulle den nödvändiga frågan vara:
- Query: taxonomy:83333 AND proteomes:*
Hur kan jag ladda ner proteomsekvenser?
Vår FTP-server gör det möjligt att ladda ner förberäknade datamängder för referensproteom, baserat på ett gencentrerat perspektiv. För varje referensproteom finns FASTA-filer för proteiner (bestående av kanoniska och ytterligare sekvenser), kartläggningsfiler för gener, FASTA-filer för kodande DNA-sekvenser (CDS) och kartläggningsfiler för databaser. Det kan vara tillrådligt att föredra en FTP-hämtning av dessa förberäknade uppsättningar framför HTTP-hämtning av frågeresultat på webbplatsen, eftersom HTTP-strömmar för stora datamängder tenderar att misslyckas efter ett tag på grund av paketförlust.
För att ladda ner resultaten av en textsökning i UniProtKB:
- Klicka på knappen Ladda ner
- Välj nedladdningsformat
För att ladda ner dina favoritproteomer programmatiskt, gå till hjälpsidan Ladda ner data vid varje UniProt-utgåva, där du hittar ett kodexempel som illustrerar hur du laddar ner proteomerna för alla organismer under en viss taxonomisk nod i FASTA-format.
Notera att de nedladdningsformat som beskriver fullständiga UniProtKB-poster (platt text, XML, XML, RDF/XML) endast innehåller de ”kanoniska” eller visade proteinsekvenserna i UniProtKB-posterna. Dessa kanoniska sekvenser kan också laddas ner i FASTA-format (alternativ Canonical sequence data in FASTA format
), liksom en uppsättning proteinsekvenser med både kanoniska och manuellt granskade ”isoformsekvenser” från UniProtKB/Swiss-Prot (där sådana finns) med hjälp av alternativet Canonical and isoform sequence data in FASTA format
.
Se även:
Lämna ett svar