Mik azok a proteomok?
On december 19, 2021 by adminAz Uniprot olyan fehérjék proteomkészleteit biztosítja, amelyek genomját teljes mértékben szekvenálták.
Mi a proteom?
A proteom azon fehérjék összessége, amelyekről feltételezhető, hogy egy szervezet által kifejezettek. Az UniProt proteomok többsége egy teljesen szekvenált genom fordításán alapul, és általában tartalmaz olyan szekvenciákat, amelyek extra-kromoszómális elemekből, például plazmidokból vagy organelláris genomokból származnak azokban a szervezetekben, ahol ezek előfordulnak. Néhány proteom tartalmazhat olyan fehérjeszekvenciákat is, amelyek jó minőségű cDNS-eken alapulnak, és amelyeket a szekvenálási hibák vagy hiányosságok miatt nem lehet a jelenlegi genom-összeállításra leképezni. Ezeket csak az alátámasztó bizonyítékok kézi felülvizsgálatát követően vesszük fel a proteómába, beleértve a közeli rokon szervezetekből származó homológ szekvenciák gondos elemzését.
Mivel egyre több genomot szekvenálnak ugyanabból a szervezetből, egyedi proteom-azonosítókat vezettünk be, hogy megkülönböztessük az egyes proteómákat az azonos rendszertani azonosítótól.
Milyen a UniProt proteomok kurátori státusza?
A UniProt proteomok tartalmazhatnak kézzel felülvizsgált (UniProtKB/Swiss-Prot) és felül nem vizsgált (UniProtKB/TrEMBL) bejegyzéseket is. A felülvizsgált bejegyzések aránya az egyes proteomok között változik, és nyilvánvalóan nagyobb az intenzíven kurált modellorganizmusok proteomjai esetében: egyes proteomok, például a <i>Saccharomyces cerevisiae</i> 288C és a <i>Escherichia coli</i> K12 törzs proteomjai teljes egészében felülvizsgált bejegyzésekből állnak. A kuráció folyamatos folyamat, és a proteomok rendszeresen frissülnek, amint új információk válnak elérhetővé: pszeudogének és más kétes, nem jellemzett ORF-ek eltávolításra kerülhetnek, más, újonnan azonosított és jellemzett szekvenciák pedig hozzáadódhatnak.
Miből származnak a proteomok szekvenciái?
A UniProt proteomok többsége az International Nucleotide Sequence Database Consortium (INSDC) számára benyújtott genomszekvenciák fordításain alapul.
A fehérjeszekvenciák importálására kiegészítő pipelineseket fejlesztettek ki az Ensembl-lel együttműködve a gerinces fajok, az Ensembl Genomes-szel a nem gerinces fajok, a WormBase ParaSite-szal a parazita fonálférgek és a VectorBase-szel a kórokozó vektor genomok esetében. Ezenkívül egy új csővezeték importálja az NCBI RefSeq által annotált, kiválasztott, nem redundáns genomokat. Ezek a források proteomszekvenciákat biztosítanak számos olyan kulcsfontosságú, különleges érdeklődésre számot tartó genomhoz, amelyek esetében az INSDC beadványból hiányzik a génmodell annotációja. Mind az INSDC, mind a nem INSDC származású proteomok visszavezetnek a forráshoz az assembly és az annotációs szakaszokon keresztül.
Mivel a fent említett pipelinek olyan organizmusokat fednek le, amelyekre már van néhány szekvencia az UniProtKB-ban, ezeket a meglévő szekvenciákat össze kell egyeztetni az importáltakkal. Az eljárás a következőképpen működik:
- A nemINSDC genomokból származó szekvenciákat először leképezzük UniProtKB megfelelőikre szigorú feltételek mellett, ami 100%-os azonosságot követel meg a két szekvencia hosszának 100%-án. Ezeket a bejegyzéseket a proteom részeként jelöljük (azaz a proteom azonosítón keresztül a “Proteomes”-hez kapcsoljuk), és Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq kereszthivatkozással frissítjük.
- Az UniProtKB-ból hiányzó nem-INSDC genomi szekvenciákat importáljuk az UniProtKB/TrEMBL-be. Ezek a bejegyzések a proteom részeként vannak megjelölve, és keresztreferenciával rendelkeznek a megfelelő erőforrásra.
- A proteomon belüli minden más UniProtKB/Swiss-Prot bejegyzést, amely nem térképezi le ezeket a nemINSDC genomokat, a proteom részeként jelöljük.
Ezért egy proteomot az összes UniProtKB/Swiss-Prot bejegyzésből (függetlenül attól, hogy azok nemINSDC annotált genomokhoz kapcsolódnak-e) és azokból az UniProtKB/TrEMBL bejegyzésekből, amelyek az adott proteom nemINSDC forrásához kapcsolódnak.
A mai napig ezeket a csővezetékeket használták az UniProtKB további szekvenciákkal való feltöltésére a humán proteomra, a főbb modellorganizmusokra és más, különleges érdeklődésre számot tartó fajokra vonatkozóan (lásd a Complete proteomes for <i>Homo sapiens</i> és <i>Mus musculus</i> címszót).
See also: Honnan származnak az UniProtKB fehérjeszekvenciák?
Mely szekvenált genomok állnak rendelkezésre proteomként az UniProt-on?
A Proteomok portálon a teljesen szekvenált genomok fordításából nyert fehérjeszekvencia-készletek találhatók. Az NCBI Genome-ból közzétett genomok akkor kerülnek be az UniProtba, ha megfelelnek a következő kritériumoknak:
- A genom annotált, és rendelkezésre áll egy kódoló szekvenciakészlet.
- A prediktált kódoló szekvenciák száma a szomszédos fajokból származó publikált proteomok statisztikailag szignifikáns tartományába esik.
Az így létrehozott proteomok mindegyike átmegy a Proteomes redundanciacsökkentő csővezetékünkön.
See also:
How frequency is UniProt released? Mekkora a szinkronizálási késedelem más adatbázisokkal?
Hogyan lehet lekérni a proteómokat?
A proteómok lekérhetők az UniProt weboldal Proteomes szakaszán keresztül, ahol különböző formátumú letöltési linkek találhatók.
Az UniProtKB-ból is lekérhető az összes bejegyzés, amely egy proteómot alkot, a proteome
mezőben a proteom azonosítóra való kereséssel. A proteom-azonosító egyedileg azonosítja a teljesen szekvenált genom egyetlen összeállításának megfelelő fehérjék halmazát.
Az Escherichia coli (K12 törzs) proteomjának lekérdezéséhez például a következő lekérdezés szükséges:
- Kérés: proteom:UP000000625
Figyeljen arra, hogy taxonómiai azonosítónként több proteom is lehet. A taxonómiai azonosító a taxonomy
mező vagy a organism
mező lekérdezésére használható, a “Proteomok” kereszthivatkozással együtt. Ez az összes olyan proteom szekvencia lekérdezését eredményezi, amely az azonosító által meghatározott taxonómiai rangsorban vagy az alatt van. Például az Escherichia coli (K12 törzs) proteomjának és az alacsonyabb taxonómiai csomópontokon (altörzsek, például Escherichia coli (K12 / DH10B törzs)) található összes proteomnak a lekérdezéséhez a következő lenne:
- Kérdés: taxonómia:83333 AND proteomok:*
Hogyan tölthetem le a proteomokat?
FTP-szerverünk lehetővé teszi referencia-proteomok előre kiszámított, géncentrikus szemléletű adatkészleteinek letöltését. Minden egyes referencia-proteomhoz rendelkezésre állnak fehérje FASTA fájlok (kanonikus és kiegészítő szekvenciákból álló), géntérképező fájlok, kódoló DNS-szekvencia (CDS) FASTA fájlok és adatbázis-térképező fájlok. Célszerű lehet előnyben részesíteni ezen előre kiszámított halmazok FTP letöltését a honlapon található lekérdezési eredmények HTTP letöltésével szemben, mivel a nagy adathalmazok HTTP adatfolyamai a csomagvesztés miatt egy idő után hajlamosak megszakadni.
Az UniProtKB-ban végzett szöveges keresés eredményeinek letöltéséhez:
- Kattintson a Letöltés gombra
- Válassza ki a letöltési formátumot
A kedvenc proteomok programozott letöltéséhez, kérjük, látogasson el az Adatok letöltése minden UniProt kiadásnál című segédoldalra, ahol egy kódpéldát talál, amely bemutatja, hogyan töltse le egy adott taxonómiai csomópont alatti összes organizmus proteomját FASTA formátumban.
Megjegyezzük, hogy a teljes UniProtKB bejegyzéseket leíró letöltési formátumok (flat text, XML, RDF/XML) csak az UniProtKB bejegyzések “kanonikus” vagy megjelenített fehérje szekvenciáit tartalmazzák. Ezek a kanonikus szekvenciák FASTA formátumban is letölthetők (Canonical sequence data in FASTA format
opció), akárcsak egy olyan fehérjeszekvenciakészlet, amely tartalmazza mind a kanonikus, mind a kézzel felülvizsgált “izoforma szekvenciákat” az UniProtKB/Swiss-Prot-ból (ahol elérhető) a Canonical and isoform sequence data in FASTA format
opció használatával.
Vö. még:
Vélemény, hozzászólás?