Wat zijn proteomen?
On december 19, 2021 by adminUniProt levert proteoomreeksen van eiwitten waarvan het genoom volledig is gesequenced.
Wat is een proteoom?
Een proteoom is de verzameling eiwitten waarvan wordt aangenomen dat ze door een organisme tot expressie worden gebracht. De meeste UniProt-proteomen zijn gebaseerd op de vertaling van een volledig gesequenteerd genoom, en bevatten normaliter sequenties die afkomstig zijn van extra-chromosomale elementen zoals plasmiden of organellaire genomen in organismen waarin deze voorkomen. Sommige proteomen kunnen ook eiwitsequenties bevatten die gebaseerd zijn op cDNA’s van hoge kwaliteit die als gevolg van sequencingfouten of lacunes niet in de huidige genoomsequentie kunnen worden ingepast. Deze worden alleen in het proteoom opgenomen na handmatige beoordeling van het ondersteunende bewijsmateriaal, waaronder zorgvuldige analyse van homologe sequenties van nauw verwante organismen.
Naarmate meer en meer genomen van hetzelfde organisme worden gesequenced, hebben we unieke proteoom-identificaties geïntroduceerd om individuele proteomen van dezelfde taxonomie-identificatie te onderscheiden.
Wat is de curatiestatus van UniProt proteomes?
UniProt proteomes kunnen zowel handmatig beoordeelde (UniProtKB/Swiss-Prot) als niet-beoordeelde (UniProtKB/TrEMBL) vermeldingen bevatten. Het aandeel van gereviewde entries varieert tussen proteomen, en is duidelijk groter voor de proteomen van intensief gecureerde modelorganismen: sommige proteomen, zoals die van <i>Saccharomyces cerevisiae</i> 288C en <i>Escherichia coli</i> stam K12 bestaan volledig uit gereviewde entries. Curation is een continu proces, en proteomen worden bijgewerkt op een regelmatige manier als nieuwe informatie beschikbaar komt: pseudogenen en andere dubieuze ongekarakteriseerde ORFs kunnen worden verwijderd, andere nieuw geïdentificeerde en gekarakteriseerde sequenties kunnen worden toegevoegd.
Wat is de bron van de sequenties voor proteomen?
De meeste UniProt-proteomen zijn gebaseerd op vertalingen van genoomsequenties die zijn ingediend bij het International Nucleotide Sequence Database Consortium (INSDC).
Er zijn aanvullende pijplijnen voor de import van eiwitsequenties ontwikkeld in samenwerking met Ensembl voor gewervelde soorten, Ensembl Genomes voor niet-gewervelde soorten, WormBase ParaSite voor parasitaire nematoden en VectorBase voor pathogene vector-genomen. Bovendien importeert een nieuwe pijplijn geselecteerde niet-redundante genomen die geannoteerd zijn door NCBI RefSeq. Deze bronnen leveren proteoomsequenties voor een aantal belangrijke genomen van speciaal belang waar de INSDC-indiening genmodelannotatie ontbeert. Zowel INSDC als niet-INSDC afgeleide proteomen koppelen terug naar de bron via respectievelijk de assemblage- en annotatiesecties.
Omdat de bovengenoemde pijplijnen organismen bestrijken waarvoor we al enkele sequenties in UniProtKB hebben, moeten deze bestaande sequenties in overeenstemming worden gebracht met de geïmporteerde. De procedure werkt als volgt:
- Sequenties van niet-INSDC genomen worden eerst in kaart gebracht met hun UniProtKB tegenhangers onder strikte voorwaarden, waarbij 100% identiteit over 100% van de lengte van de twee sequenties vereist is. Deze ingangen worden gemarkeerd als deel van het proteoom (d.w.z. gekoppeld aan “Proteomes” via de proteoom-identifier) en bijgewerkt met een Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq kruisverwijzing.
- Niet-INSDC-genoomsequenties die afwezig zijn in UniProtKB worden geïmporteerd in UniProtKB/TrEMBL. Deze vermeldingen worden gemarkeerd als deel van het proteoom en krijgen een verwijzing naar de passende bron.
- Alle andere UniProtKB/Swiss-Prot vermeldingen binnen het proteoom die niet aan deze niet-INSDC-genomen zijn gekoppeld, worden gemarkeerd als deel van het proteoom.
Een proteoom wordt dus gevormd door alle UniProtKB/Swiss-Prot vermeldingen (ongeacht of zij betrekking hebben op niet-INSDC-geannoteerde genomen) plus de UniProtKB/TrEMBL vermeldingen die betrekking hebben op de niet-INSDC-bron voor dat proteoom.
Tot op heden zijn deze pijplijnen gebruikt om UniProtKB te vullen met extra sequenties voor het menselijk proteoom, belangrijke modelorganismen en andere soorten van speciaal belang (zie kop Complete proteomes for <i>Homo sapiens</i> and <i>Mus musculus</i>).
Zie ook: Waar komen de UniProtKB eiwitsequenties vandaan?
Welke opgevolgde genomen zijn beschikbaar als proteomen bij UniProt?
Het Proteomes portaal biedt eiwitsequentie sets verkregen uit de vertaling van volledig opgevolgde genomen. Gepubliceerde genomen van NCBI Genome worden in UniProt gebracht als ze aan de volgende criteria voldoen:
- Het genoom is geannoteerd en een set coderende sequenties is beschikbaar.
- Het aantal voorspelde coderende sequenties valt binnen een statistisch significant bereik van gepubliceerde proteomen van aangrenzende soorten.
Alle proteomen die op deze manier worden gegenereerd gaan door onze Proteomes redundancy reduction pipeline.
Zie ook:
Hoe vaak wordt UniProt vrijgegeven? Wat is de synchronisatievertraging met andere databases?
Hoe kunnen proteomen worden opgehaald?
Proteomen kunnen worden opgehaald via de Proteomes-sectie van de UniProt-website, die downloadlinks bevat voor verschillende formaten.
Alternatief kunnen alle entries die een proteoom vormen, worden opgehaald van UniProtKB door te zoeken naar de proteoom-identifier in het proteome
-veld. Een proteoomidentificatie identificeert op unieke wijze de verzameling proteïnen die overeenkomt met een enkele assemblage van een volledig gesequenced genoom.
Om bijvoorbeeld het proteoom voor Escherichia coli (stam K12) op te vragen, zou de vereiste query zijn:
- Query: proteome:UP000000625
Merk op dat er verscheidene proteomen per taxonomische identificatiecode kunnen zijn. De taxonomische identificatiecode kan worden gebruikt om het taxonomy
-veld of het organism
-veld te bevragen, samen met de kruisverwijzing naar “Proteomes”. Dit zal resulteren in het ophalen van alle proteoomsequenties op of onder de taxonomische rang die door de identifier wordt gespecificeerd. Om bijvoorbeeld het proteoom voor Escherichia coli (stam K12) en alle proteomen op lagere taxonomische knooppunten (substammen zoals Escherichia coli (stam K12 / DH10B)) op te vragen, zou de vereiste query zijn:
- Query: taxonomy:83333 AND proteomes:*
Hoe kan ik proteomen downloaden?
Ons FTP-server maakt het mogelijk om vooraf berekende datasets voor referentie-proteomen te downloaden, gebaseerd op een gen-centrisch perspectief. Voor elke verwijzing proteoom, eiwit FASTA-bestanden (samengesteld uit canonieke en aanvullende sequenties), gen mapping bestanden, coderende DNA-sequentie (CDS) FASTA-bestanden en database mapping bestanden zijn beschikbaar. Het kan raadzaam zijn de voorkeur te geven aan een FTP-download van deze vooraf berekende sets boven de HTTP-download van queryresultaten op de website, omdat HTTP-streams voor grote datasets de neiging hebben na enige tijd te mislukken als gevolg van packet loss.
Om de resultaten van een tekst search in UniProtKB te downloaden:
- Klik op de Download knop
- Kies het download formaat
Om uw favoriete proteomen programmatisch te downloaden, ga naar de help pagina Downloading data at every UniProt release, waar u een code voorbeeld vindt dat illustreert hoe u de proteomen voor alle organismen onder een gegeven taxonomische node in FASTA formaat kunt downloaden.
Merk op dat de downloadformaten die complete UniProtKB entries beschrijven (platte tekst, XML, RDF/XML) alleen de ‘canonieke’ of weergegeven eiwitsequenties van UniProtKB entries bevatten. Deze canonieke sequenties kunnen ook worden gedownload in FASTA-formaat (optie Canonical sequence data in FASTA format
), evenals een set eiwitsequenties met zowel canonieke als handmatig beoordeelde ‘isovormsequenties’ van UniProtKB/Swiss-Prot (indien beschikbaar) met behulp van de optie Canonical and isoform sequence data in FASTA format
.
Zie ook:
Geef een antwoord