Cosa sono i proteomi?
Il Dicembre 19, 2021 da adminUniProt fornisce set di proteomi di proteine i cui genomi sono stati completamente sequenziati.
Cos’è un proteoma?
Un proteoma è l’insieme delle proteine che si pensa siano espresse da un organismo. La maggior parte dei proteomi UniProt sono basati sulla traduzione di un genoma completamente sequenziato, e normalmente includono sequenze che derivano da elementi extra-cromosomici come plasmidi o genomi organellari in organismi dove questi sono presenti. Alcuni proteomi possono anche includere sequenze di proteine basate su cDNA di alta qualità che non possono essere mappate nell’attuale assemblaggio del genoma a causa di errori di sequenziamento o lacune. Questi sono inclusi nel proteoma solo dopo una revisione manuale delle prove di supporto, compresa un’attenta analisi delle sequenze omologhe da organismi strettamente correlati.
Come sempre più genomi dello stesso organismo vengono sequenziati, abbiamo introdotto identificatori unici del proteoma per distinguere i singoli proteomi dallo stesso identificatore di tassonomia.
Qual è lo stato di cura dei proteomi UniProt?
I proteomi UniProt possono includere sia voci revisionate manualmente (UniProtKB/Swiss-Prot) che non revisionate (UniProtKB/TrEMBL). La proporzione di voci revisionate varia tra i proteomi, ed è ovviamente maggiore per i proteomi di organismi modello intensamente curati: alcuni proteomi, come quelli di <i>Saccharomyces cerevisiae</i> 288C e <i>Escherichia coli</i> ceppo K12 consistono interamente di voci revisionate. La cura è un processo continuo, e i proteomi sono aggiornati in modo regolare man mano che nuove informazioni diventano disponibili: pseudogeni e altre ORF dubbie non caratterizzate possono essere rimosse, altre sequenze recentemente identificate e caratterizzate possono essere aggiunte.
Qual è la fonte delle sequenze per i proteomi?
La maggior parte dei proteomi UniProt sono basati su traduzioni di sequenze di genoma inviate all’International Nucleotide Sequence Database Consortium (INSDC).
Processi complementari per l’importazione di sequenze di proteine sono stati sviluppati in collaborazione con Ensembl per le specie vertebrate, Ensembl Genomes per le specie non vertebrate, WormBase ParaSite per i nematodi parassiti e VectorBase per i genomi di vettori patogeni. Inoltre, una nuova pipeline importa genomi selezionati non ridondanti annotati da NCBI RefSeq. Queste fonti forniscono sequenze di proteoma per un certo numero di genomi chiave di particolare interesse in cui la presentazione INSDC manca dell’annotazione del modello genico. Sia i proteomi derivati dall’INSDC che quelli non derivati dall’INSDC si ricollegano alla fonte attraverso le sezioni di assemblaggio e di annotazione, rispettivamente.
Poiché le suddette pipeline coprono organismi per i quali abbiamo già alcune sequenze in UniProtKB, queste sequenze esistenti devono essere riconciliate con quelle importate. La procedura funziona nel modo seguente:
- Le sequenze provenienti da genomi non INSDC sono prima mappate alle loro controparti UniProtKB sotto condizioni rigorose, che richiedono il 100% di identità sul 100% della lunghezza delle due sequenze. Queste voci sono contrassegnate come parte del proteoma (cioè collegate a “Proteomi” tramite l’identificatore del proteoma) e aggiornate con un riferimento incrociato Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Le sequenze genomiche non INSDC che sono assenti da UniProtKB sono importate in UniProtKB/TrEMBL. Queste voci sono contrassegnate come parte del proteoma e hanno un riferimento incrociato alla risorsa appropriata.
- Tutte le altre voci UniProtKB/Swiss-Prot all’interno del proteoma che non corrispondono a questi genomi non-INSDC sono contrassegnate come parte del proteoma.
Quindi, un proteoma è formato da tutte le voci UniProtKB/Swiss-Prot (indipendentemente dal fatto che mappino su genomi annotati non-INSDC) più quelle voci UniProtKB/TrEMBL che mappano sulla risorsa non-INSDC per quel proteoma.
Ad oggi queste pipeline sono state usate per popolare UniProtKB con sequenze aggiuntive per il proteoma umano, i principali organismi modello e altre specie di particolare interesse (vedi titolo Proteomi completi per <i>Homo sapiens</i> e <i>Mus musculus</i>).
Vedi anche: Da dove provengono le sequenze di proteine UniProtKB?
Quali genomi sequenziati sono disponibili come proteomi su UniProt?
Il portale Proteomi offre set di sequenze di proteine ottenuti dalla traduzione di genomi completamente sequenziati. I genomi pubblicati da NCBI Genome sono portati in UniProt se soddisfano i seguenti criteri:
- Il genoma è annotato ed è disponibile un set di sequenze codificanti.
- Il numero di sequenze codificanti previste rientra in un intervallo statisticamente significativo di proteomi pubblicati da specie vicine.
Tutti i proteomi generati in questo modo passano attraverso la nostra pipeline di riduzione della ridondanza di Proteomes.
Vedi anche:
Quanto spesso viene rilasciato UniProt? Qual è il ritardo di sincronizzazione con altri database?
Come recuperare i proteomi?
I proteomi possono essere recuperati tramite la sezione Proteomi del sito web UniProt, che fornisce link per il download di vari formati.
In alternativa, tutte le voci che formano un proteoma, possono essere recuperate da UniProtKB cercando l’identificatore di proteoma nel campo proteome
. Un identificatore di proteoma identifica in modo univoco l’insieme delle proteine corrispondenti ad un singolo assemblaggio di un genoma completamente sequenziato.
Per esempio, per recuperare il proteoma di Escherichia coli (ceppo K12), la query richiesta sarebbe:
- Query: proteome:UP000000625
Si prega di notare che ci possono essere diversi proteomi per identificatore tassonomico. L’identificatore tassonomico può essere usato per interrogare il campo taxonomy
o il campo organism
, insieme al riferimento incrociato a “Proteomi”. Questo risulterà nel recupero di tutte le sequenze di proteoma al livello tassonomico specificato dall’identificatore o al di sotto di esso. Per esempio, per recuperare il proteoma di Escherichia coli (ceppo K12) e tutti i proteomi nei nodi tassonomici inferiori (sottoceppi come Escherichia coli (ceppo K12 / DH10B)), la query richiesta sarebbe:
- Query: tassonomia:83333 AND proteomes:*
Come posso scaricare i proteomi?
Il nostro server FTP permette di scaricare set di dati precompilati per i proteomi di riferimento, basati su una prospettiva gene-centrica. Per ogni proteoma di riferimento, sono disponibili i file FASTA delle proteine (composti da sequenze canoniche e aggiuntive), i file di mappatura dei geni, i file FASTA delle sequenze di DNA codificanti (CDS) e i file di mappatura dei database. Può essere consigliabile preferire un download FTP di questi set precompilati rispetto al download HTTP dei risultati delle query sul sito web, perché i flussi HTTP per grandi dataset tendono a fallire dopo un po’ a causa della perdita di pacchetti.
Per scaricare i risultati di una ricerca testuale in UniProtKB:
- Clicca il pulsante Download
- Scegli il formato di download
Per scaricare programmaticamente i tuoi proteomi preferiti, vai alla pagina di aiuto Download dei dati ad ogni rilascio di UniProt, dove troverai un esempio di codice che illustra come scaricare i proteomi per tutti gli organismi sotto un dato nodo tassonomico in formato FASTA.
Nota che i formati di download che descrivono le voci complete di UniProtKB (flat text, XML, RDF/XML) includono solo le sequenze proteiche “canoniche” o visualizzate delle voci UniProtKB. Queste sequenze canoniche possono anche essere scaricate in formato FASTA (opzione Canonical sequence data in FASTA format
), così come un insieme di sequenze proteiche che includono sia le sequenze canoniche che le ‘sequenze di isoforme’ riviste manualmente da UniProt/Swiss-Prot (se disponibili) usando l’opzione Canonical and isoform sequence data in FASTA format
.
Vedi anche:
Lascia un commento