Was sind Proteome?
On Dezember 19, 2021 by adminUniProt stellt Proteome von Proteinen bereit, deren Genome vollständig sequenziert wurden.
Was ist ein Proteom?
Ein Proteom ist die Menge der Proteine, von denen angenommen wird, dass sie von einem Organismus exprimiert werden. Die meisten UniProt-Proteome basieren auf der Übersetzung eines vollständig sequenzierten Genoms und enthalten normalerweise Sequenzen, die von extrachromosomalen Elementen wie Plasmiden oder organellaren Genomen in Organismen stammen, in denen diese vorkommen. Einige Proteome können auch Proteinsequenzen enthalten, die auf qualitativ hochwertigen cDNAs basieren, die aufgrund von Sequenzierungsfehlern oder -lücken nicht auf die aktuelle Genomeinheit abgebildet werden können. Diese werden nur nach einer manuellen Überprüfung der unterstützenden Beweise in das Proteom aufgenommen, einschließlich einer sorgfältigen Analyse homologer Sequenzen aus eng verwandten Organismen.
Da immer mehr Genome desselben Organismus sequenziert werden, haben wir eindeutige Proteom-Kennungen eingeführt, um einzelne Proteome von derselben Taxonomie-Kennung zu unterscheiden.
Wie ist der Kuratierungsstatus der UniProt-Proteome?
UniProt-Proteome können sowohl manuell überprüfte (UniProtKB/Swiss-Prot) als auch nicht überprüfte (UniProtKB/TrEMBL) Einträge enthalten. Der Anteil der überprüften Einträge variiert zwischen den Proteomen und ist bei den Proteomen von intensiv kuratierten Modellorganismen offensichtlich größer: Einige Proteome, wie die von <i>Saccharomyces cerevisiae</i> 288C und <i>Escherichia coli</i> Stamm K12, bestehen ausschließlich aus überprüften Einträgen. Die Kuratierung ist ein fortlaufender Prozess, und die Proteome werden regelmäßig aktualisiert, wenn neue Informationen verfügbar werden: Pseudogene und andere zweifelhafte, nicht charakterisierte ORFs können entfernt werden, andere neu identifizierte und charakterisierte Sequenzen können hinzugefügt werden.
Woher stammen die Sequenzen der Proteome?
Die meisten UniProt-Proteome basieren auf Übersetzungen von Genomsequenzen, die beim International Nucleotide Sequence Database Consortium (INSDC) eingereicht wurden.
Ergänzende Pipelines für den Import von Proteinsequenzen wurden in Zusammenarbeit mit Ensembl für Wirbeltierarten, Ensembl Genomes für Nicht-Wirbeltierarten, WormBase ParaSite für parasitäre Fadenwürmer und VectorBase für Pathogen-Vektor-Genome entwickelt. Darüber hinaus importiert eine neue Pipeline ausgewählte nicht redundante Genome, die von NCBI RefSeq annotiert werden. Diese Quellen liefern Proteomsequenzen für eine Reihe von Schlüsselgenomen von besonderem Interesse, bei denen die INSDC-Einreichung keine Genmodell-Annotation enthält. Sowohl INSDC- als auch nicht-INSDC-abgeleitete Proteome sind über die Abschnitte „Assembly“ bzw. „Annotation“ mit der Quelle verknüpft.
Da die oben genannten Pipelines Organismen abdecken, für die wir bereits einige Sequenzen in UniProtKB haben, müssen diese vorhandenen Sequenzen mit den importierten Sequenzen abgeglichen werden. Das Verfahren läuft folgendermaßen ab:
- Sequenzen aus Nicht-INSDC-Genomen werden zunächst unter strengen Bedingungen auf ihre UniProtKB-Gegenstücke abgebildet, wobei eine 100%ige Identität über 100% der Länge der beiden Sequenzen erforderlich ist. Diese Einträge werden als Teil des Proteoms gekennzeichnet (d. h. über den Proteom-Identifikator mit „Proteomes“ verknüpft) und mit einem Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq-Querverweis aktualisiert.
- Nicht-INSDC-Genomsequenzen, die in UniProtKB nicht vorhanden sind, werden in UniProtKB/TrEMBL importiert. Diese Einträge sind als Teil des Proteoms gekennzeichnet und haben einen Querverweis auf die entsprechende Ressource.
- Alle anderen UniProtKB/Swiss-Prot-Einträge innerhalb des Proteoms, die nicht auf diese Nicht-INSDC-Genome abgebildet werden, sind als Teil des Proteoms gekennzeichnet.
Daher wird ein Proteom aus allen UniProtKB/Swiss-Prot-Einträgen (unabhängig davon, ob sie auf nicht-INSDC-annotierte Genome abgebildet werden) plus den UniProtKB/TrEMBL-Einträgen, die auf die nicht-INSDC-Ressource für dieses Proteom abgebildet werden, gebildet.
Bislang wurden diese Pipelines verwendet, um UniProtKB mit zusätzlichen Sequenzen für das menschliche Proteom, wichtige Modellorganismen und andere Arten von besonderem Interesse zu füllen (siehe Überschrift Vollständige Proteome für <i>Homo sapiens</i> und <i>Mus musculus</i>).
Siehe auch: Woher stammen die UniProtKB-Proteinsequenzen?
Welche sequenzierten Genome sind als Proteome bei UniProt verfügbar?
Das Proteome-Portal bietet Proteinsequenzsätze, die aus der Übersetzung vollständig sequenzierter Genome gewonnen wurden. Veröffentlichte Genome aus dem NCBI Genome werden in UniProt aufgenommen, wenn sie die folgenden Kriterien erfüllen:
- Das Genom ist annotiert und ein Satz von kodierenden Sequenzen ist verfügbar.
- Die Anzahl der vorhergesagten kodierenden Sequenzen liegt innerhalb eines statistisch signifikanten Bereichs von veröffentlichten Proteomen benachbarter Arten.
Alle auf diese Weise erzeugten Proteome durchlaufen unsere Pipeline zur Redundanzreduzierung bei Proteomen.
Siehe auch:
Wie häufig wird UniProt veröffentlicht? Wie groß ist die Synchronisationsverzögerung mit anderen Datenbanken?
Wie kann man Proteome abrufen?
Proteome können über den Abschnitt Proteomes auf der UniProt-Website abgerufen werden, der Download-Links für verschiedene Formate bereitstellt.
Alternativ können alle Einträge, die ein Proteom bilden, von UniProtKB abgerufen werden, indem im Feld proteome
nach der Proteom-Kennung gesucht wird. Ein Proteom-Identifikator identifiziert eindeutig die Menge der Proteine, die einer einzelnen Baugruppe eines vollständig sequenzierten Genoms entsprechen.
Um beispielsweise das Proteom von Escherichia coli (Stamm K12) abzurufen, lautet die erforderliche Abfrage:
- Abfrage: proteome:UP000000625
Bitte beachten Sie, dass es mehrere Proteome pro taxonomischem Identifikator geben kann. Der taxonomische Identifikator kann zur Abfrage des Feldes taxonomy
oder des Feldes organism
verwendet werden, zusammen mit dem Querverweis auf „Proteome“. Dies führt zum Abruf aller Proteomsequenzen auf oder unterhalb des durch die Kennung angegebenen taxonomischen Ranges. Um zum Beispiel das Proteom für Escherichia coli (Stamm K12) und alle Proteome an niedrigeren taxonomischen Knoten (Unterstämme wie Escherichia coli (Stamm K12 / DH10B)) abzurufen, würde die erforderliche Abfrage lauten:
- Abfrage: taxonomy:83333 AND proteomes:*
Wie kann ich Proteome herunterladen?
Unser FTP-Server ermöglicht das Herunterladen von vorberechneten Datensätzen für Referenzproteome, die auf einer gen-zentrierten Perspektive basieren. Für jedes Referenzproteom stehen Protein-FASTA-Dateien (bestehend aus kanonischen und zusätzlichen Sequenzen), Gen-Mapping-Dateien, Coding DNA Sequence (CDS) FASTA-Dateien und Datenbank-Mapping-Dateien zur Verfügung. Es kann ratsam sein, einen FTP-Download dieser vorberechneten Sätze dem HTTP-Download von Abfrageergebnissen auf der Website vorzuziehen, da HTTP-Streams für große Datensätze nach einer Weile aufgrund von Paketverlusten zum Scheitern neigen.
Um die Ergebnisse einer Textsuche in UniProtKB herunterzuladen:
- Klicken Sie auf die Schaltfläche Download
- Wählen Sie das Download-Format
Um Ihre bevorzugten Proteome programmatisch herunterzuladen, gehen Sie bitte auf die Hilfeseite Herunterladen von Daten bei jeder UniProt-Veröffentlichung, wo Sie ein Code-Beispiel finden, das veranschaulicht, wie man die Proteome für alle Organismen unterhalb eines bestimmten taxonomischen Knotens im FASTA-Format herunterlädt.
Bitte beachten Sie, dass die Download-Formate, die vollständige UniProtKB-Einträge beschreiben (Flat Text, XML, RDF/XML), nur die „kanonischen“ oder angezeigten Proteinsequenzen der UniProtKB-Einträge enthalten. Diese kanonischen Sequenzen können auch im FASTA-Format heruntergeladen werden (Option Canonical sequence data in FASTA format
), ebenso wie ein Satz von Proteinsequenzen, der sowohl kanonische als auch manuell überprüfte „Isoform-Sequenzen“ von UniProtKB/Swiss-Prot (sofern verfügbar) enthält, unter Verwendung der Option Canonical and isoform sequence data in FASTA format
.
Siehe auch:
Schreibe einen Kommentar