Mitä ovat proteomit?
On 19 joulukuun, 2021 by adminUniProt tarjoaa proteomikokonaisuuksia proteiineista, joiden genomit on sekvensoitu täydellisesti.
Mikä on proteomi?
Proteomi on joukko proteiineja, joiden uskotaan ilmentyvän organismissa. Suurin osa UniProt-proteomeista perustuu täysin sekvensoidun genomin kääntämiseen, ja ne sisältävät yleensä sekvenssejä, jotka ovat peräisin ekstrakromosomaalisista elementeistä, kuten plasmideista tai organellargenomeista sellaisissa organismeissa, joissa niitä esiintyy. Jotkin proteomit voivat myös sisältää proteiinisekvenssejä, jotka perustuvat korkealaatuisiin cDNA:ihin, joita ei voida sekvensointivirheiden tai aukkojen vuoksi kartoittaa nykyiseen genomikokoonpanoon. Nämä sisällytetään proteomiin vasta sen jälkeen, kun niitä tukeva todistusaineisto on tarkistettu manuaalisesti, mukaan lukien läheisesti sukulaisorganismien homologisten sekvenssien huolellinen analyysi.
Koska samasta organismista sekvensoidaan yhä useampia genomeja, otimme käyttöön yksilölliset proteomitunnisteet, jotta yksittäiset proteomit voidaan erottaa toisistaan samasta taksonomiatunnisteesta.
Mikä on UniProt-proteomien kuratointitilanne?
UniProt-proteomit voivat sisältää sekä manuaalisesti tarkistettuja (UniProtKB/Swiss-Prot) että tarkistamattomia (UniProtKB/TrEMBL) merkintöjä. Tarkistettujen merkintöjen osuus vaihtelee proteomien välillä, ja se on selvästi suurempi intensiivisesti kuratoitujen malliorganismien proteomeissa: jotkin proteomit, kuten <i>Saccharomyces cerevisiae</i> 288C:n ja <i>Escherichia coli</i> kanta K12:n proteomit koostuvat kokonaan tarkistetuista merkinnöistä. Kuratointi on jatkuva prosessi, ja proteomeja päivitetään säännöllisesti sitä mukaa, kun uutta tietoa tulee saataville: pseudogeenit ja muut epäilyttävät karakterisoimattomat ORF:t saatetaan poistaa, muita hiljattain tunnistettuja ja karakterisoituja sekvenssejä saatetaan lisätä.
Mikä on proteomien sekvenssien lähde?
Suurin osa UniProt-proteomeista perustuu INSDC:lle (International Nucleotide Sequence Database Consortium) toimitettujen genomisekvenssien käännöksiin.
Proteiinisekvenssien tuontia varten on kehitetty täydentäviä putkilinjoja yhteistyössä Ensemblin kanssa selkärankaisten lajien osalta, Ensembl Genomesin kanssa muiden kuin selkärankaisten lajien osalta, WormBase ParaSite:n kanssa parasiittisten sukkulamatojen osalta ja VectorBase:n kanssa taudinaiheuttajien vektorigenomien osalta. Lisäksi uusi putki tuo maahan valikoituja ei-redundantteja genomeja, jotka on kommentoitu NCBI RefSeqin avulla. Näistä lähteistä saadaan proteomisekvenssejä useille tärkeille ja erityisen kiinnostaville genomeille, joiden osalta INSDC:n toimittamasta aineistosta puuttuu geenimallin annotointi. Sekä INSDC:stä että muista kuin INSDC:stä saadut proteomit linkittyvät takaisin lähteeseen assemblaatio- ja annotaatio-osioiden kautta.
Koska edellä mainitut putket kattavat organismeja, joista meillä on jo joitakin sekvenssejä UniProtKB:ssä, nämä olemassa olevat sekvenssit on sovitettava yhteen tuotujen sekvenssien kanssa. Menettely toimii seuraavalla tavalla:
- Sekvenssit, jotka ovat peräisin muista kuin INSDC:n genomeista, kartoitetaan ensin UniProtKB:n vastineisiinsa tiukkojen ehtojen mukaisesti, jotka edellyttävät 100 %:n identiteettiä 100 %:n osuudella kahden sekvenssin pituudesta. Nämä merkinnät merkitään osaksi proteomia (eli linkitetään ”Proteomes” proteomitunnisteen kautta) ja päivitetään Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq-ristiviittauksella.
- Muut kuin INSDC-genomin sekvenssit, jotka puuttuvat UniProtKB:stä, tuodaan UniProtKB/TrEMBL:ään. Nämä merkinnät merkitään osaksi proteomia ja niissä on ristiviittaus asianmukaiseen resurssiin.
- Kaikki muut proteomin sisällä olevat UniProtKB/Swiss-Prot-merkinnät, jotka eivät kartoita näitä ei-INSDC-genomeja, merkitään osaksi proteomia.
Siten proteomi muodostuu kaikista UniProtKB/Swiss-Prot-merkinnöistä (riippumatta siitä, kartoittavatko ne ei-INSDC-annotoituja genomeja) sekä niistä UniProtKB/TrEMBL-merkinnöistä, jotka kartoittavat kyseisen proteomin ei-INSDC-resurssia.
Tähän mennessä näitä putkia on käytetty UniProtKB:n täyttämiseen lisäsekvensseillä ihmisen proteomille, tärkeimmille malliorganismeille ja muille erityisen kiinnostaville lajeille (ks. otsikko Complete proteomes for <i>Homo sapiens</i> and <i>Mus musculus <i>).
Katso myös: Mistä UniProtKB-proteiinisekvenssit ovat peräisin?
Mitkä sekvensoidut genomit ovat saatavilla proteomeina UniProtissa?
Proteomes-portaalissa on tarjolla proteiinisekvenssisarjoja, jotka on saatu täysin sekvensoitujen genomien kääntämisestä. NCBI Genomista julkaistut genomit tuodaan UniProtiin, jos ne täyttävät seuraavat kriteerit:
- Genomi on annotoitu ja joukko koodaavia sekvenssejä on saatavilla.
- Ennustettujen koodaavien sekvenssien määrä kuuluu tilastollisesti merkitsevään vaihteluväliin naapurilajien julkaistujen proteomien kanssa.
Kaikki tällä tavoin tuotetut proteomit käyvät läpi proteomien redundanssin vähentämisputken.
Katso myös:
Miten usein UniProt julkaistaan? Mikä on synkronointiviive muiden tietokantojen kanssa?
Miten proteomeja haetaan?
Proteomeja voi hakea UniProtin verkkosivujen Proteomes-osiosta, jossa on latauslinkkejä eri formaateille.
Vaihtoehtoisesti kaikki merkinnät, jotka muodostavat proteomin, voidaan hakea UniProtKB:stä etsimällä proteomin tunniste proteome
-kentästä. Proteomitunniste yksilöi yksiselitteisesti joukon proteiineja, jotka vastaavat täydellisesti sekvensoidun genomin yhtä kokoonpanoa.
Escherichia coli -kannan (kanta K12) proteomin hakemiseksi tarvittava kysely olisi esimerkiksi:
- Query: proteome:UP000000625
Huomattakoon, että taksonomisessa tunnisteessa voi olla useita proteomeja. Taksonomisen tunnisteen avulla voidaan tehdä kysely taxonomy
-kenttään tai organism
-kenttään yhdessä ristiviitteen ”Proteomit” kanssa. Näin saadaan haettua kaikki proteomisekvenssit, jotka ovat taksonomisen tunnisteen määrittelemällä taksonomisella sijalla tai sen alapuolella. Jos esimerkiksi halutaan hakea Escherichia coli (kanta K12) proteomi ja kaikki alempien taksonomisten solmujen (alikannat, kuten Escherichia coli (kanta K12 / DH10B)) proteomit, tarvittava kysely olisi:
- Query: taxonomy:83333 AND proteomes:*
Miten voin ladata proteomeja?
FTP-palvelimemme mahdollistaa referenssiproteomien ennalta laskettujen tietokokonaisuuksien lataamisen geenikeskeisestä näkökulmasta. Kunkin referenssiproteomin osalta on saatavilla proteiinien FASTA-tiedostoja (jotka koostuvat kanonisista ja lisäsekvensseistä), geenikartoitustiedostoja, koodaavien DNA-jaksojen (CDS) FASTA-tiedostoja ja tietokantojen kartoitustiedostoja. Saattaa olla suositeltavaa suosia FTP-latausta näistä valmiiksi lasketuista joukoista verkkosivulla olevien kyselytulosten HTTP-latauksen sijaan, koska suurten tietokokonaisuuksien HTTP-virtauksilla on taipumus epäonnistua jonkin ajan kuluttua pakettihäviöiden vuoksi.
Tekstihakutulosten lataaminen UniProtKB:stä:
- Klikkaa Lataa-painiketta
- Valitse latausmuoto
Jos haluat ladata suosikkiproteomit ohjelmallisesti, siirry apusivulle Datan lataaminen jokaisen UniProt-julkaisun yhteydessä, josta löydät koodiesimerkin, joka havainnollistaa, miten kaikkien tietyn taksonomisen solmupisteen alapuolelle jäävien organismien proteomit ladataan FASTA-muodossa.
Huomaa, että latausmuodot, jotka kuvaavat täydellisiä UniProtKB-merkintöjä (tasoteksti, XML, RDF/XML), sisältävät vain UniProtKB-merkintöjen ”kanoniset” tai näytetyt proteiinisekvenssit. Nämä kanoniset sekvenssit voidaan ladata myös FASTA-muodossa (vaihtoehto Canonical sequence data in FASTA format
), samoin kuin joukko proteiinisekvenssejä, jotka sisältävät sekä kanonisia että manuaalisesti tarkistettuja ”isomuotoisia sekvenssejä” UniProtKB/Swiss-Prot-tietokannasta (jos saatavilla), käyttämällä vaihtoehtoa Canonical and isoform sequence data in FASTA format
.
Katso myös:
Vastaa