Co jsou to proteomy?
On 19 prosince, 2021 by adminUniProt poskytuje soubory proteomů proteinů, jejichž genomy byly kompletně sekvenovány.
Co je to proteom?
Proteom je soubor proteinů, o kterých se předpokládá, že jsou exprimovány organismem. Většina proteomů UniProt je založena na překladu kompletně sekvenovaného genomu a obvykle bude zahrnovat sekvence, které pocházejí z extrachromozomálních prvků, jako jsou plazmidy nebo organelární genomy u organismů, kde se vyskytují. Některé proteomy mohou také zahrnovat proteinové sekvence založené na vysoce kvalitních cDNA, které nelze mapovat na současnou sestavu genomu kvůli chybám v sekvenování nebo mezerám. Ty jsou do proteomu zahrnuty až po ručním přezkoumání podpůrných důkazů, včetně pečlivé analýzy homologních sekvencí z blízce příbuzných organismů.
Jelikož je sekvenováno stále více genomů stejného organismu, zavedli jsme jedinečné identifikátory proteomu, abychom odlišili jednotlivé proteomy od stejného taxonomického identifikátoru.
Jaký je stav kurátorství proteomů UniProt?
Proteomy UniProt mohou obsahovat jak ručně revidované (UniProtKB/Swiss-Prot), tak nerecenzované (UniProtKB/TrEMBL) záznamy. Podíl recenzovaných záznamů se mezi proteomy liší a je zjevně vyšší u proteomů intenzivně kurátorovaných modelových organismů: některé proteomy, například proteomy <i>Saccharomyces cerevisiae</i> 288C a <i>Escherichia coli</i> kmene K12, se skládají výhradně z recenzovaných záznamů. Kurátorství je průběžný proces a proteomy jsou pravidelně aktualizovány podle toho, jak jsou k dispozici nové informace: pseudogeny a jiné pochybné necharakterizované ORF mohou být odstraněny, další nově identifikované a charakterizované sekvence mohou být přidány.
Jaký je zdroj sekvencí pro proteomy?
Většina proteomů UniProt je založena na překladech sekvencí genomů předložených konsorciu International Nucleotide Sequence Database Consortium (INSDC).
Komplementární pipelines pro import proteinových sekvencí byly vyvinuty ve spolupráci s Ensembl pro druhy obratlovců, Ensembl Genomes pro druhy, které nejsou obratlovci, WormBase ParaSite pro parazitické hlístice a VectorBase pro genomy patogenních vektorů. Kromě toho nová pipeline importuje vybrané neredundantní genomy anotované databází NCBI RefSeq. Tyto zdroje poskytují sekvence proteomů pro řadu klíčových genomů zvláštního zájmu, u nichž v podání INSDC chybí anotace genového modelu. Jak proteomy odvozené z INSDC, tak proteomy neodvozené z INSDC odkazují zpět na zdroj prostřednictvím sekce sestavení, respektive anotace.
Jelikož výše uvedené pipeline zahrnují organismy, pro které již máme některé sekvence v UniProtKB, je třeba tyto existující sekvence sladit s importovanými. Postup funguje následujícím způsobem:
- Sekvence z genomů, které nejsou v databázi INSDC, se nejprve mapují na své protějšky v databázi UniProtKB za přísných podmínek, které vyžadují 100% identitu na 100 % délky obou sekvencí. Tyto záznamy jsou označeny jako součást proteomu (tj. propojeny s „Proteomes“ prostřednictvím identifikátoru proteomu) a aktualizovány pomocí křížového odkazu Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Sekvence genomů, které nejsou součástí UniProtKB, jsou importovány do UniProtKB/TrEMBL. Tyto záznamy jsou označeny jako součást proteomu a mají křížový odkaz na příslušný zdroj.
- Všechny ostatní záznamy v UniProtKB/Swiss-Prot v rámci proteomu, které nejsou mapovány na tyto non-INSDC genomy, jsou označeny jako součást proteomu.
Proteom je tedy vytvořen ze všech záznamů UniProtKB/Swiss-Prot (bez ohledu na to, zda jsou mapovány do genomů anotovaných v jiných zdrojích než INSDC) plus těch záznamů UniProtKB/TrEMBL, které jsou mapovány do zdrojů jiných než INSDC pro daný proteom.
Dosud byly tyto pipeline použity k doplnění UniProtKB o další sekvence pro lidský proteom, hlavní modelové organismy a další druhy zvláštního zájmu (viz titulek Kompletní proteomy pro <i>Homo sapiens</i> a <i>Mus musculus</i>).
Viz také:
Které sekvenované genomy jsou k dispozici jako proteomy na portálu UniProt?
Portál Proteomes nabízí soubory proteinových sekvencí získané překladem kompletně sekvenovaných genomů. Zveřejněné genomy z NCBI Genome jsou přeneseny do UniProt, pokud splňují následující kritéria:
- Genom je anotován a je k dispozici soubor kódujících sekvencí.
- Počet predikovaných kódujících sekvencí spadá do statisticky významného rozmezí publikovaných proteomů sousedních druhů.
Všechny takto vytvořené proteomy procházejí naším pipeline pro redukci redundance proteomů.
Viz také:
Jak často je UniProt vydáván? Jaké je zpoždění synchronizace s jinými databázemi?
Jak získat proteomy?
Proteomy lze získat prostřednictvím sekce Proteomy na webových stránkách UniProt, kde jsou uvedeny odkazy ke stažení pro různé formáty.
Případně lze všechny záznamy, které tvoří proteom, získat z UniProtKB vyhledáním identifikátoru proteomu v poli proteome
. Identifikátor proteomu jednoznačně identifikuje soubor proteinů odpovídající jedné sestavě kompletně sekvenovaného genomu.
Například pro získání proteomu pro Escherichia coli (kmen K12) by požadovaný dotaz zněl:
- Query: proteome:UP000000625
Upozorňujeme, že pro jeden taxonomický identifikátor může existovat několik proteomů. Taxonomický identifikátor lze použít k dotazu do pole taxonomy
nebo do pole organism
spolu s křížovým odkazem na „Proteomes“. Výsledkem bude vyhledání všech sekvencí proteomů na taxonomickém stupni uvedeném identifikátorem nebo pod ním. Například pro získání proteomu pro Escherichia coli (kmen K12) a všech proteomů na nižších taxonomických uzlech (podkmenů, jako je Escherichia coli (kmen K12 / DH10B)) by požadovaný dotaz zněl:
- Dotaz: taxonomie:83333 AND proteomes:*
Jak mohu stáhnout proteomy?
Náš FTP server umožňuje stahovat předpočítané soubory dat pro referenční proteomy, založené na genově orientovaném pohledu. Pro každý referenční proteom jsou k dispozici proteinové soubory FASTA (složené z kanonických a doplňkových sekvencí), soubory mapování genů, soubory FASTA kódující sekvence DNA (CDS) a soubory mapování databází. Lze doporučit upřednostnit stahování těchto předpočítaných souborů přes FTP před stahováním výsledků dotazů přes HTTP na webových stránkách, protože datové toky HTTP pro velké soubory dat mají tendenci po určité době selhávat kvůli ztrátě paketů.
Pro stažení výsledků textového vyhledávání v UniProtKB:
- klikněte na tlačítko Stáhnout
- zvolte formát stahování
Pro programové stažení oblíbených proteomů přejděte na stránku nápovědy Stahování dat u každého vydání UniProt, kde najdete příklad kódu, který ukazuje, jak stáhnout proteomy pro všechny organismy pod daným taxonomickým uzlem ve formátu FASTA.
Všimněte si, že formáty pro stahování, které popisují kompletní záznamy UniProtKB (flat text, XML, RDF/XML), obsahují pouze „kanonické“ nebo zobrazené proteinové sekvence záznamů UniProtKB. Tyto kanonické sekvence lze stáhnout také ve formátu FASTA (volba Canonical sequence data in FASTA format
), stejně jako soubor proteinových sekvencí zahrnující jak kanonické, tak ručně revidované „izoformní sekvence“ z UniProtKB/Swiss-Prot (pokud jsou k dispozici) pomocí volby Canonical and isoform sequence data in FASTA format
.
Viz také:
.
Napsat komentář