Que sont les protéomes ?
On décembre 19, 2021 by adminUniProt fournit des ensembles de protéomes de protéines dont les génomes ont été complètement séquencés.
Qu’est-ce qu’un protéome ?
Un protéome est l’ensemble des protéines que l’on pense être exprimées par un organisme. La majorité des protéomes UniProt sont basés sur la traduction d’un génome complètement séquencé, et comprendront normalement des séquences qui dérivent d’éléments extra-chromosomiques tels que des plasmides ou des génomes organellaires dans les organismes où ceux-ci sont présents. Certains protéomes peuvent également inclure des séquences de protéines basées sur des ADNc de haute qualité qui ne peuvent pas être cartographiés dans l’assemblage actuel du génome en raison d’erreurs ou de lacunes de séquençage. Celles-ci ne sont incluses dans le protéome qu’après un examen manuel des preuves à l’appui, y compris une analyse minutieuse des séquences homologues d’organismes étroitement apparentés.
Comme de plus en plus de génomes d’un même organisme sont séquencés, nous avons introduit des identificateurs de protéome uniques pour distinguer les protéomes individuels du même identificateur de taxonomie.
Quel est l’état de curation des protéomes UniProt ?
Les protéomes UniProt peuvent inclure des entrées révisées manuellement (UniProtKB/Swiss-Prot) et non révisées (UniProtKB/TrEMBL). La proportion d’entrées révisées varie selon les protéomes, et est évidemment plus importante pour les protéomes d’organismes modèles faisant l’objet d’une curation intensive : certains protéomes, comme ceux de <i>Saccharomyces cerevisiae</i> 288C et de <i>Escherichia coli</i> souche K12 sont entièrement constitués d’entrées révisées. La curation est un processus continu, et les protéomes sont mis à jour de manière régulière au fur et à mesure que de nouvelles informations deviennent disponibles : les pseudogènes et autres ORF douteux non caractérisés peuvent être supprimés, d’autres séquences nouvellement identifiées et caractérisées peuvent être ajoutées.
Quelle est la source des séquences pour les protéomes ?
La majorité des protéomes d’UniProt sont basés sur des traductions de soumissions de séquences génomiques au Consortium international des bases de données de séquences nucléotidiques (INSDC).
Des pipelines complémentaires pour l’importation de séquences protéiques ont été développés en collaboration avec Ensembl pour les espèces vertébrées, Ensembl Genomes pour les espèces non vertébrées, WormBase ParaSite pour les nématodes parasites et VectorBase pour les génomes de vecteurs pathogènes. En outre, un nouveau pipeline importe certains génomes non redondants annotés par NCBI RefSeq. Ces sources fournissent des séquences protéomiques pour un certain nombre de génomes clés d’intérêt particulier pour lesquels la soumission INSDC manque d’annotation de modèle génétique. Les protéomes dérivés d’INSDC et de non-INSDC renvoient à la source via les sections d’assemblage et d’annotation respectivement.
Comme les pipelines mentionnés ci-dessus couvrent des organismes pour lesquels nous avons déjà certaines séquences dans UniProtKB, ces séquences existantes doivent être réconciliées avec celles importées. La procédure fonctionne de la manière suivante:
- Les séquences provenant de génomes non-INSDC sont d’abord mises en correspondance avec leurs homologues UniProtKB dans des conditions strictes, exigeant une identité de 100% sur 100% de la longueur des deux séquences. Ces entrées sont marquées comme faisant partie du protéome (c’est-à-dire liées à « Proteomes » via l’identifiant du protéome) et mises à jour avec une référence croisée Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Les séquences génomiques non-INSDC qui sont absentes d’UniProtKB sont importées dans UniProtKB/TrEMBL. Ces entrées sont marquées comme faisant partie du protéome et ont une référence croisée à la ressource appropriée.
- Toutes les autres entrées UniProtKB/Swiss-Prot au sein du protéome qui ne correspondent pas à ces génomes non-INSDC sont marquées comme faisant partie du protéome.
Par conséquent, un protéome est formé de toutes les entrées UniProtKB/Swiss-Prot (indépendamment du fait qu’elles correspondent à des génomes annotés non-INSDC) plus les entrées UniProtKB/TrEMBL correspondant à la ressource non-INSDC pour ce protéome.
À ce jour, ces pipelines ont été utilisés pour alimenter UniProtKB avec des séquences supplémentaires pour le protéome humain, les principaux organismes modèles et d’autres espèces d’intérêt particulier (voir le titre Protéomes complets pour <i>Homo sapiens</i> et <i>Mus musculus</i>).
Voir aussi : D’où proviennent les séquences protéiques UniProtKB ?
Quels génomes séquencés sont disponibles en tant que protéomes chez UniProt ?
Le portail Proteomes propose des ensembles de séquences protéiques obtenus à partir de la traduction de génomes complètement séquencés. Les génomes publiés à partir du NCBI Genome sont introduits dans UniProt s’ils répondent aux critères suivants :
- Le génome est annoté et un ensemble de séquences codantes est disponible.
- Le nombre de séquences codantes prédites se situe dans une fourchette statistiquement significative des protéomes publiés d’espèces voisines.
Tous les protéomes générés de cette manière passent par notre pipeline de réduction de la redondance des protéomes.
Voir aussi:
À quelle fréquence UniProt est-il publié ? Quel est le délai de synchronisation avec d’autres bases de données ?
Comment récupérer les protéomes ?
Les protéomes peuvent être récupérés via la section Proteomes du site web UniProt, qui fournit des liens de téléchargement pour différents formats.
Alternativement, toutes les entrées qui forment un protéome, peuvent être récupérées à partir d’UniProtKB en recherchant l’identifiant du protéome dans le champ proteome
. Un identificateur de protéome identifie de façon unique l’ensemble des protéines correspondant à un seul assemblage d’un génome complètement séquencé.
Par exemple, pour récupérer le protéome d’Escherichia coli (souche K12), la requête requise serait :
- Query : proteome:UP000000625
Veuillez noter qu’il peut y avoir plusieurs protéomes par identificateur taxonomique. L’identifiant taxonomique peut être utilisé pour interroger le champ taxonomy
ou le champ organism
, ainsi que la référence croisée à « Proteomes ». Cela permettra d’extraire toutes les séquences de protéomes au rang taxonomique spécifié par l’identifiant ou en dessous. Par exemple, pour récupérer le protéome d’Escherichia coli (souche K12) et tous les protéomes aux nœuds taxonomiques inférieurs (sous-souches telles que Escherichia coli (souche K12 / DH10B)), alors la requête requise serait :
- Query : taxonomy:83333 AND proteomes:*
Comment puis-je télécharger des protéomes ?
Notre serveur FTP permet de télécharger des ensembles de données précalculés pour des protéomes de référence, basés sur une perspective centrée sur les gènes. Pour chaque protéome de référence, des fichiers FASTA de protéines (composés de séquences canoniques et supplémentaires), des fichiers de cartographie de gènes, des fichiers FASTA de séquences d’ADN codantes (CDS) et des fichiers de cartographie de bases de données sont disponibles. Il peut être conseillé de préférer un téléchargement FTP de ces ensembles précalculés au téléchargement HTTP des résultats des requêtes sur le site web, car les flux HTTP pour les grands ensembles de données ont tendance à échouer après un certain temps en raison de la perte de paquets.
Pour télécharger les résultats d’une recherche textuelle dans UniProtKB :
- Cliquez sur le bouton Télécharger
- Choisissez le format de téléchargement
Pour télécharger vos protéomes préférés de manière programmatique, veuillez vous rendre sur la page d’aide Télécharger des données à chaque publication d’UniProt, où vous trouverez un exemple de code qui illustre comment télécharger les protéomes de tous les organismes sous un nœud taxonomique donné au format FASTA.
Notez que les formats de téléchargement qui décrivent les entrées complètes d’UniProtKB (texte plat, XML, RDF/XML) ne comprennent que les séquences protéiques « canoniques » ou affichées des entrées UniProtKB. Ces séquences canoniques peuvent également être téléchargées au format FASTA (option Canonical sequence data in FASTA format
), tout comme un ensemble de séquences de protéines comprenant à la fois les séquences canoniques et les ‘séquences d’isoformes’ révisées manuellement à partir d’UniProtKB/Swiss-Prot (lorsqu’elles sont disponibles) en utilisant l’option Canonical and isoform sequence data in FASTA format
.
See also:
Laisser un commentaire