O que são proteomes?
On Dezembro 19, 2021 by adminUniProt fornece conjuntos de proteínas proteomas cujos genomas foram completamente sequenciados.
O que é um proteoma?
Um proteoma é o conjunto de proteínas que se pensa ser expresso por um organismo. A maioria dos proteomas UniProt são baseados na tradução de um genoma completamente sequenciado, e normalmente incluem sequências que derivam de elementos extra-cromossómicos, tais como plasmídeos ou genomas organelares em organismos onde estes ocorrem. Alguns proteomas também podem incluir sequências de proteínas baseadas em cDNAs de alta qualidade que não podem ser mapeadas para o conjunto genómico actual devido a erros de sequenciação ou lacunas. Estes só são incluídos no proteoma após revisão manual das evidências de suporte, incluindo análise cuidadosa de sequências homólogas de organismos intimamente relacionados.
Quando mais e mais genomas do mesmo organismo estão sendo sequenciados, introduzimos identificadores de proteoma únicos para distinguir proteomas individuais do mesmo identificador taxonômico.
Qual é o estado de cura dos proteomas UniProt?
Os proteomas UniProt podem incluir tanto entradas revistas manualmente (UniProtKB/Swiss-Prot) como não revistas (UniProtKB/TrEMBL). A proporção de entradas revistas varia entre proteomas, e é obviamente maior para os proteomas de organismos modelo de cura intensiva: alguns proteomas, como os de <i>Saccharomyces cerevisiae</i> 288C e <i>Escherichia coli</i> estirpe K12 consistem inteiramente de entradas revistas. A cura é um processo contínuo, e os proteomas são atualizados regularmente à medida que novas informações se tornam disponíveis: pseudogenes e outras ORFs não caracterizadas duvidosas podem ser removidas, outras sequências recentemente identificadas e caracterizadas podem ser adicionadas.
Qual é a fonte das sequências para os proteomas?
A maioria dos proteomas UniProt são baseados em traduções de submissões de sequências de genoma ao International Nucleotide Sequence Database Consortium (INSDC).
Dutos complementares para importação de sequências de proteínas foram desenvolvidos em colaboração com Ensembl para espécies de vertebrados, Ensembl Genomes para espécies não vertebradas, WormBase ParaSite para nematóides parasitas e VectorBase para genomas vetoriais patogênicos. Além disso, um novo gasoduto importa genomas selecionados não redundantes anotados pelo NCBI RefSeq. Estas fontes fornecem seqüências de proteomas para vários genomas chave de interesse especial onde a submissão do INSDC está sem a anotação do modelo genético. Tanto os proteomas derivados do INSDC como os não derivados do INSDC ligam-se de volta à fonte através das secções assembly e annotation respectivamente.
Como os pipelines acima mencionados cobrem organismos para os quais já temos algumas sequências no UniProtKB, estas sequências existentes têm de ser reconciliadas com as importadas. O procedimento funciona da seguinte forma:
- Sequências de genomas não INSDC são primeiro mapeadas para as suas contrapartes UniProtKB sob condições rigorosas, exigindo 100% de identidade sobre 100% do comprimento das duas sequências. Estas entradas são marcadas como parte do proteoma (ou seja, ligadas a “Proteomes” através do identificador do proteoma) e actualizadas com uma referência cruzada Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Sequências genómicas não-INSDC que estão ausentes do UniProtKB são importadas para UniProtKB/TrEMBL. Estas entradas são marcadas como parte do proteoma e têm uma referência cruzada ao recurso apropriado.
- Todas as outras entradas UniProtKB/Swiss-Prot dentro do proteoma que não mapeiam para estes genomas não-INSDC são marcadas como parte do proteoma.
Por isso, um proteoma é formado a partir de todas as entradas UniProtKB/Swiss-Prot (independentemente de mapearem para genomas não-INSDC anotados) mais aquelas entradas UniProtKB/TrEMBL mapeadas para o recurso não-INSDC para esse proteoma.
Até à data que estes pipelines foram usados para povoar UniProtKB com sequências adicionais para o proteoma humano, principais organismos modelo e outras espécies de interesse especial (ver manchete Proteomas completos para <i>Homo sapiens</i> e <i>Mus musculus</i>).
Veja também: De onde vêm as sequências de proteínas UniProtKB?
Que genomas sequenciados estão disponíveis como proteomas em UniProt?
>
O portal Proteomes oferece conjuntos de sequências de proteínas obtidas a partir da tradução de genomas completamente sequenciados. Genomas publicados do NCBI Genoma são trazidos para UniProt se satisfizerem os seguintes critérios:
- O genoma é anotado e um conjunto de sequências de codificação está disponível.
- O número de sequências de codificação previstas está dentro de uma gama estatisticamente significativa de proteomas publicados de espécies vizinhas.
Todos os proteomas gerados desta forma passam pelo nosso pipeline de redução de redundância de Proteomes.
Veja também:
Qual a frequência com que o UniProt é lançado? Qual é o atraso de sincronização com outros bancos de dados?
Como recuperar proteomas?
Proteomes pode ser recuperado através da seção Proteomes do site UniProt, que fornece links de download para vários formatos.
Alternativamente, todas as entradas que formam um proteoma, podem ser recuperadas a partir do UniProtKB, procurando o identificador do proteoma no campo proteome
. Um identificador de proteoma identifica exclusivamente o conjunto de proteínas correspondente a um conjunto único de um genoma completamente sequenciado.
Por exemplo, para recuperar o proteoma para Escherichia coli (estirpe K12), a consulta necessária seria:
- Query: proteome:UP000000625
Por favor note que pode haver vários proteomas por identificador taxonómico. O identificador taxonómico pode ser usado para consultar o campo taxonomy
ou o campo organism
, juntamente com a referência cruzada a “Proteomes”. Isto resultará na recuperação de todas as seqüências de proteomas na ou abaixo da classificação taxonômica especificada pelo identificador. Por exemplo, para recuperar o proteoma para Escherichia coli (estirpe K12) e todos os proteomas em nós taxonómicos inferiores (substrrains como Escherichia coli (estirpe K12 / DH10B)), então a consulta necessária seria:
- Pergunta: taxonomia:8333333 E proteomas:*
Como posso descarregar proteomas?
O nosso servidor FTP permite descarregar conjuntos de dados pré-calculados para proteomas de referência, com base numa perspectiva gene-cêntrica. Para cada proteoma de referência, estão disponíveis ficheiros FASTA de proteínas (compostos por sequências canónicas e sequências adicionais), ficheiros de mapeamento genético, ficheiros FASTA de Codificação de Sequência de ADN (CDS) e ficheiros de mapeamento de bases de dados. Pode ser aconselhável preferir um download FTP desses conjuntos pré-calculados ao invés do download HTTP dos resultados da consulta no site, pois os fluxos HTTP para grandes conjuntos de dados tendem a falhar após algum tempo devido à perda de pacotes.
Para baixar os resultados de uma pesquisa de texto em UniProtKB:
- Clique no botão Download
- Selecione o formato de download
Para baixar seus proteomas favoritos programmaticamente, vá para a página de ajuda Baixando dados em cada lançamento UniProt, onde você encontrará um exemplo de código que ilustra como baixar os proteomas para todos os organismos abaixo de um determinado nó taxonômico no formato FASTA.
Note que os formatos de download que descrevem entradas UniProtKB completas (texto plano, XML, RDF/XML) incluem apenas as seqüências de proteínas ‘canônicas’ ou exibidas das entradas UniProtKB. Estas sequências canónicas também podem ser descarregadas em formato FASTA (opção Canonical sequence data in FASTA format
), tal como um conjunto de sequências proteicas incluindo tanto sequências canónicas como sequências isoforma revistas manualmente a partir do UniProtKB/Swiss-Prot (quando disponível) usando a opção Canonical and isoform sequence data in FASTA format
.
Ver também:
Deixe uma resposta