Co to są proteomy?
On 19 grudnia, 2021 by adminUniProt dostarcza zestawy proteomów białek, których genomy zostały całkowicie zsekwencjonowane.
Co to jest proteom?
Proteom jest zestawem białek, o których sądzi się, że są wyrażane przez organizm. Większość proteomów UniProt opiera się na translacji całkowicie zsekwencjonowanego genomu i zazwyczaj zawiera sekwencje pochodzące z elementów pozachromosomalnych, takich jak plazmidy lub genomy organellarne w organizmach, w których one występują. Niektóre proteomy mogą również zawierać sekwencje białek oparte na wysokiej jakości cDNA, które nie mogą być zmapowane do aktualnego zespołu genomu z powodu błędów sekwencjonowania lub luk. Są one włączone do proteomu tylko po ręcznym przeglądzie dowodów wspierających, w tym starannej analizie sekwencji homologicznych z blisko spokrewnionych organizmów.
Jak coraz więcej genomów tego samego organizmu jest sekwencjonowanych, wprowadziliśmy unikalne identyfikatory proteomów, aby odróżnić poszczególne proteomy od tego samego identyfikatora taksonomicznego.
Jaki jest status kuratorski proteomów UniProt?
Beom UniProt może zawierać zarówno ręcznie przeglądane (UniProtKB/Swiss-Prot), jak i nieprzeglądane (UniProtKB/TrEMBL) wpisy. Proporcja przeglądanych wpisów różni się między proteomami i jest oczywiście większa w przypadku proteomów intensywnie kuratorowanych organizmów modelowych: niektóre proteomy, takie jak te z <i>Saccharomyces cerevisiae</i> 288C i <i>Escherichia coli</i> szczepu K12 składają się w całości z przeglądanych wpisów. Kuracja jest procesem ciągłym, a proteomy są regularnie aktualizowane w miarę pojawiania się nowych informacji: pseudogeny i inne wątpliwe, niescharakteryzowane ORF mogą być usuwane, inne nowo zidentyfikowane i scharakteryzowane sekwencje mogą być dodawane.
Jakie jest źródło sekwencji dla proteomów?
Większość proteomów UniProt jest oparta na tłumaczeniach sekwencji genomowych przesłanych do International Nucleotide Sequence Database Consortium (INSDC).
Komplementarne potoki importu sekwencji białkowych zostały opracowane we współpracy z Ensembl dla gatunków kręgowców, Ensembl Genomes dla gatunków bezkręgowców, WormBase ParaSite dla pasożytniczych nicieni i VectorBase dla genomów wektorów patogenów. Dodatkowo, nowy potok importuje wybrane nieredundantne genomy z adnotacją NCBI RefSeq. Źródła te dostarczają sekwencje proteomów dla wielu kluczowych genomów o szczególnym znaczeniu, w przypadku których w zgłoszeniu INSDC brakuje adnotacji modelu genu. Zarówno proteomy pochodzące z INSDC jak i nie pochodzące z INSDC odsyłają do źródła odpowiednio przez sekcje montażu i adnotacji.
Jako że wyżej wymienione potoki obejmują organizmy, dla których mamy już pewne sekwencje w UniProtKB, te istniejące sekwencje muszą być uzgodnione z tymi importowanymi. Procedura działa w następujący sposób:
- Sekwencje pochodzące z genomów spoza INSDC są najpierw mapowane do ich odpowiedników w UniProtKB w rygorystycznych warunkach, wymagających 100% identyczności na 100% długości obu sekwencji. Te wpisy są oznaczone jako część proteomu (tj. połączone z „Proteomes” poprzez identyfikator proteomu) i aktualizowane z odniesieniem krzyżowym Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Sekwencje genomowe z genomów innych niż INSDC, które są nieobecne w UniProtKB są importowane do UniProtKB/TrEMBL. Te wpisy są oznaczone jako część proteomu i mają odsyłacz do odpowiedniego zasobu.
- Wszystkie inne wpisy UniProtKB/Swiss-Prot w obrębie proteomu, które nie mapują do tych genomów spozaINSDC, są oznaczone jako część proteomu.
W związku z tym proteom jest tworzony ze wszystkich wpisów UniProtKB/Swiss-Prot (niezależnie od tego, czy mapują one do genomów nieopatrzonych adnotacją INSDC) plus te wpisy UniProtKB/TrEMBL mapujące do zasobów nieINSDC dla tego proteomu.
Do tej pory te potoki zostały wykorzystane do zaludnienia UniProtKB dodatkowymi sekwencjami dla proteomu człowieka, głównych organizmów modelowych i innych gatunków o szczególnym znaczeniu (patrz nagłówek Complete proteomes for <i>Homo sapiens</i> and <i>Mus musculus</i>).
Zobacz także: Skąd pochodzą sekwencje białek UniProtKB?
Które sekwencjonowane genomy są dostępne jako proteomy w UniProt?
Portal Proteomes oferuje zestawy sekwencji białek uzyskane w wyniku translacji całkowicie sekwencjonowanych genomów. Opublikowane genomy z NCBI Genome są wprowadzane do UniProt, jeśli spełniają następujące kryteria:
- Genom jest anotowany i dostępny jest zestaw sekwencji kodujących.
- Liczba przewidywanych sekwencji kodujących mieści się w statystycznie istotnym zakresie opublikowanych proteomów z sąsiednich gatunków.
Wszystkie proteomy wygenerowane w ten sposób przechodzą przez nasz potok redukcji nadmiarowości Proteomes.
Zobacz także:
Jak często UniProt jest udostępniany? Jakie jest opóźnienie synchronizacji z innymi bazami danych?
Jak pobrać proteomy?
Proteomy można pobrać poprzez sekcję Proteomes na stronie internetowej UniProt, która zawiera linki do pobrania dla różnych formatów.
Alternatywnie, wszystkie wpisy, które tworzą proteom, można pobrać z UniProtKB poprzez wyszukiwanie identyfikatora proteomu w polu proteome
. Identyfikator proteomu jednoznacznie identyfikuje zestaw białek odpowiadających pojedynczemu złożeniu całkowicie zsekwencjonowanego genomu.
Na przykład, aby pobrać proteom dla Escherichia coli (szczep K12), wymagane zapytanie byłoby następujące:
- Query: proteome:UP000000625
Proszę zauważyć, że może istnieć kilka proteomów na identyfikator taksonomiczny. Identyfikator taksonomiczny może być użyty do zapytania w polu taxonomy
lub organism
, wraz z odsyłaczem do „Proteomes”. Spowoduje to wyszukanie wszystkich sekwencji proteomowych na poziomie lub poniżej poziomu taksonomicznego określonego przez identyfikator. Na przykład, aby pobrać proteom dla Escherichia coli (szczep K12) i wszystkie proteomy w niższych węzłach taksonomicznych (pododmianach takich jak Escherichia coli (szczep K12 / DH10B)), wymagane zapytanie byłoby następujące:
- Pytanie: taxonomy:83333 AND proteomes:*
Jak mogę pobrać proteomy?
Nasz serwer FTP pozwala na pobranie wstępnie obliczonych zestawów danych dla proteomów referencyjnych, opartych na perspektywie genocentrycznej. Dla każdego proteomu referencyjnego dostępne są pliki FASTA białek (składające się z sekwencji kanonicznych i dodatkowych), pliki mapujące geny, pliki FASTA kodujących sekwencji DNA (CDS) oraz pliki mapujące bazy danych. Może być wskazane, aby preferować pobieranie FTP tych wstępnie obliczonych zestawów zamiast pobierania HTTP wyników zapytań na stronie internetowej, ponieważ strumienie HTTP dla dużych zbiorów danych mają tendencję do zawodzenia po pewnym czasie z powodu utraty pakietów.
Aby pobrać wyniki wyszukiwania tekstowego w UniProtKB:
- Kliknij przycisk Pobierz
- Wybierz format pobierania
Aby pobrać ulubione proteomy programowo, przejdź do strony pomocy Pobieranie danych przy każdym wydaniu UniProt, gdzie znajdziesz przykład kodu ilustrujący, jak pobrać proteomy dla wszystkich organizmów poniżej danego węzła taksonomicznego w formacie FASTA.
Zauważ, że formaty pobierania, które opisują kompletne wpisy UniProtKB (flat text, XML, RDF/XML) zawierają tylko „kanoniczne” lub wyświetlane sekwencje białek wpisów UniProtKB. Te kanoniczne sekwencje mogą być również pobrane w formacie FASTA (opcja Canonical sequence data in FASTA format
), podobnie jak zestaw sekwencji białek zawierający zarówno sekwencje kanoniczne, jak i ręcznie zweryfikowane „sekwencje izoform” z UniProtKB/Swiss-Prot (jeśli są dostępne) przy użyciu opcji Canonical and isoform sequence data in FASTA format
.
Zobacz także:
.
Dodaj komentarz