Ce sunt proteomii?
On decembrie 19, 2021 by adminUniProt oferă seturi de proteomuri de proteine ale căror genomuri au fost complet secvențiate.
Ce este un proteom?
Un proteom este setul de proteine despre care se crede că sunt exprimate de un organism. Majoritatea proteomurilor UniProt se bazează pe traducerea unui genom complet secvențiat și, în mod normal, va include secvențe care provin din elemente extra-cromozomiale, cum ar fi plasmidele sau genomurile organelare în organismele în care acestea apar. Unele proteome pot include, de asemenea, secvențe de proteine bazate pe ADNc de înaltă calitate care nu pot fi cartografiate în ansamblul actual al genomului din cauza unor erori de secvențiere sau a unor lacune. Acestea sunt incluse în proteom numai în urma unei revizuiri manuale a dovezilor justificative, inclusiv a unei analize atente a secvențelor omologe din organisme strâns înrudite.
Pe măsură ce sunt secvențiate tot mai multe genomuri ale aceluiași organism, am introdus identificatori unici de proteom pentru a distinge proteomurile individuale de același identificator de taxonomie.
Care este starea de conservare a proteomilor UniProt?
Proteomii UniProt pot include atât intrări revizuite manual (UniProtKB/Swiss-Prot), cât și intrări nerevizuite (UniProtKB/TrEMBL). Proporția de intrări revizuite variază de la un proteom la altul și este în mod evident mai mare pentru proteomii organismelor model intensiv curatoriate: unele proteomuri, cum ar fi cele ale <i>Saccharomyces cerevisiae</i> 288C și <i>Escherichia coli</i> tulpina K12 constau în întregime din intrări revizuite. Curățarea este un proces continuu, iar proteomii sunt actualizați în mod regulat, pe măsură ce noi informații devin disponibile: pseudogene și alte ORF-uri necaracterizate dubioase pot fi eliminate, alte secvențe nou identificate și caracterizate pot fi adăugate.
Care este sursa secvențelor pentru proteomi?
Majoritatea proteomelor UniProt se bazează pe traducerile de secvențe de genom depuse la International Nucleotide Sequence Sequence Database Consortium (INSDC).
Peline-uri complementare pentru importul de secvențe de proteine au fost dezvoltate în colaborare cu Ensembl pentru speciile de vertebrate, Ensembl Genomes pentru speciile de nevertebrate, WormBase ParaSite pentru nematodele parazite și VectorBase pentru genomurile vectorilor patogeni. În plus, o nouă conductă importă genomuri neredundante selectate și adnotate de NCBI RefSeq. Aceste surse furnizează secvențe proteomice pentru o serie de genomuri cheie de interes special, în cazul în care din prezentarea INSDC lipsește adnotarea modelului de gene. Atât proteomii derivați din INSDC, cât și cei care nu provin din INSDC, fac legătura cu sursa prin intermediul secțiunilor de asamblare și, respectiv, de adnotare.
Deoarece conductele menționate mai sus acoperă organisme pentru care dispunem deja de unele secvențe în UniProtKB, aceste secvențe existente trebuie să fie reconciliate cu cele importate. Procedura funcționează în felul următor:
- Secvențele din genomurile non-INSDC sunt mai întâi mapate cu omologii lor din UniProtKB în condiții stricte, necesitând o identitate de 100% pe 100% din lungimea celor două secvențe. Aceste intrări sunt marcate ca făcând parte din proteom (adică legate de „Proteomes” prin intermediul identificatorului proteomului) și actualizate cu o referință încrucișată Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Secvențele genomice non-INSDC care sunt absente din UniProtKB sunt importate în UniProtKB/TrEMBL. Aceste intrări sunt marcate ca făcând parte din proteom și au o referință încrucișată la resursa corespunzătoare.
- Toate celelalte intrări UniProtKB/Swiss-Prot din cadrul proteomului care nu se mapează la aceste genomuri non-INSDC sunt marcate ca făcând parte din proteom.
Prin urmare, un proteom este format din toate intrările UniProtKB/Swiss-Prot (indiferent dacă acestea corespund sau nu unor genomuri adnotate non-INSDC) plus acele intrări UniProtKB/TrEMBL care corespund resurselor non-INSDC pentru acel proteom.
Până în prezent, aceste conducte au fost utilizate pentru a popula UniProtKB cu secvențe suplimentare pentru proteomul uman, principalele organisme model și alte specii de interes special (a se vedea titlul Proteomuri complete pentru <i>Homo sapiens</i> și <i>Mus musculus</i>).
A se vedea și:
Vezi, de asemenea: Proteomuri complete pentru <i>Homo sapiens</i> și <i>Mus musculus</i>: De unde provin secvențele de proteine UniProtKB?
Ce genomuri secvențiate sunt disponibile ca proteomi la UniProt?
Portalul Proteomes oferă seturi de secvențe de proteine obținute din traducerea unor genomuri complet secvențiate. Genomurile publicate din NCBI Genome sunt aduse în UniProt dacă îndeplinesc următoarele criterii:
- Genomul este adnotat și este disponibil un set de secvențe codificatoare.
- Numărul de secvențe codificatoare prezise se încadrează într-un interval semnificativ din punct de vedere statistic al proteomilor publicați de la specii vecine.
Toate proteomurile generate în acest mod trec prin conducta noastră de reducere a redundanței Proteomes.
Vezi și:
Cât de frecvent este publicat UniProt? Care este întârzierea de sincronizare cu alte baze de date?
Cum se pot prelua proteomii?
Proteomii pot fi preluați prin intermediul secțiunii Proteomes de pe site-ul UniProt, care oferă link-uri de descărcare pentru diferite formate.
Alternativ, toate intrările care formează un proteom, pot fi preluate din UniProtKB prin căutarea identificatorului proteomului în câmpul proteome
. Un identificator de proteom identifică în mod unic setul de proteine care corespund unui singur ansamblu al unui genom complet secvențiat.
De exemplu, pentru a prelua proteomul pentru Escherichia coli (tulpina K12), interogarea necesară ar fi:
- Interogare: proteome:UP000000625
Rețineți că pot exista mai multe proteome pentru fiecare identificator taxonomic. Identificatorul taxonomic poate fi utilizat pentru a interoga câmpul taxonomy
sau câmpul organism
, împreună cu referința încrucișată la „Proteome”. Acest lucru va duce la recuperarea tuturor secvențelor de proteom la sau sub rangul taxonomic specificat de identificator. De exemplu, pentru a prelua proteomul pentru Escherichia coli (tulpina K12) și toate proteomurile de la noduri taxonomice inferioare (substraturi, cum ar fi Escherichia coli (tulpina K12 / DH10B)), atunci interogarea necesară ar fi:
- Interogare: taxonomy:83333 AND proteomes:*
Cum pot descărca proteomurile?
Serverele noastre FTP permit descărcarea seturilor de date precalculate pentru proteomii de referință, bazate pe o perspectivă gene-centrică. Pentru fiecare proteom de referință, sunt disponibile fișiere FASTA de proteine (compuse din secvențe canonice și suplimentare), fișiere de cartografiere a genelor, fișiere FASTA de secvențe ADN codificatoare (CDS) și fișiere de cartografiere a bazelor de date. Ar putea fi recomandabil să preferați o descărcare FTP a acestor seturi precalculate în locul descărcării HTTP a rezultatelor interogării de pe site, deoarece fluxurile HTTP pentru seturi de date mari tind să eșueze după un timp din cauza pierderii de pachete.
Pentru a descărca rezultatele unei căutări text în UniProtKB:
- Click the Download button
- Choise the download format
Pentru a descărca proteomii preferați în mod programatic, vă rugăm să accesați pagina de ajutor Downloading data at every UniProt release, unde veți găsi un exemplu de cod care ilustrează modul de descărcare a proteomilor pentru toate organismele aflate sub un anumit nod taxonomic în format FASTA.
Rețineți că formatele de descărcare care descriu intrările UniProtKB complete (flat text, XML, RDF/XML) includ numai secvențele proteice „canonice” sau afișate ale intrărilor UniProtKB. Aceste secvențe canonice pot fi descărcate, de asemenea, în format FASTA (opțiunea Canonical sequence data in FASTA format
), la fel ca și un set de secvențe proteice care includ atât secvențe canonice, cât și „secvențe de izoforme” revizuite manual din UniProtKB/Swiss-Prot (acolo unde sunt disponibile), utilizând opțiunea Canonical and isoform sequence data in FASTA format
.
Vezi și:
.
Lasă un răspuns