¿Qué son los proteomas?
On diciembre 19, 2021 by adminUniProt proporciona conjuntos de proteomas de proteínas cuyos genomas han sido completamente secuenciados.
¿Qué es un proteoma?
Un proteoma es el conjunto de proteínas que se cree que expresa un organismo. La mayoría de los proteomas de UniProt se basan en la traducción de un genoma completamente secuenciado, y normalmente incluirán secuencias que se derivan de elementos extracromosómicos como plásmidos o genomas organelares en los organismos en los que estos se producen. Algunos proteomas también pueden incluir secuencias de proteínas basadas en ADNc de alta calidad que no pueden asignarse al ensamblaje del genoma actual debido a errores de secuenciación o a lagunas. Estas sólo se incluyen en el proteoma tras una revisión manual de las pruebas de apoyo, incluyendo un cuidadoso análisis de las secuencias homólogas de organismos estrechamente relacionados.
A medida que se secuencian más y más genomas del mismo organismo, introducimos identificadores de proteoma únicos para distinguir los proteomas individuales del mismo identificador taxonómico.
¿Cuál es el estado de curación de los proteomas UniProt?
Los proteomas UniProt pueden incluir tanto entradas revisadas manualmente (UniProtKB/Swiss-Prot) como entradas no revisadas (UniProtKB/TrEMBL). La proporción de entradas revisadas varía entre los proteomas, y es obviamente mayor para los proteomas de los organismos modelo intensamente curados: algunos proteomas, como los de <i>Saccharomyces cerevisiae</i> 288C y <i>Escherichia coli</i> cepa K12 consisten enteramente en entradas revisadas. La curación es un proceso continuo, y los proteomas se actualizan de forma periódica a medida que se dispone de nueva información: pueden eliminarse pseudogenes y otros ORF dudosos no caracterizados, y pueden añadirse otras secuencias recién identificadas y caracterizadas.
¿Cuál es la fuente de las secuencias para los proteomas?
La mayoría de los proteomas de UniProt se basan en las traducciones de las secuencias genómicas enviadas al Consorcio Internacional de Bases de Datos de Secuencias Nucleotídicas (INSDC).
Se han desarrollado líneas complementarias para la importación de secuencias de proteínas en colaboración con Ensembl para las especies vertebradas, Ensembl Genomes para las especies no vertebradas, WormBase ParaSite para los nematodos parásitos y VectorBase para los genomas de vectores patógenos. Además, una nueva línea de producción importa genomas seleccionados no redundantes anotados por NCBI RefSeq. Estas fuentes proporcionan secuencias de proteomas para una serie de genomas clave de especial interés en los que la presentación del INSDC carece de anotaciones de modelos de genes. Tanto los proteomas derivados del INSDC como los no derivados del INSDC enlazan con la fuente a través de las secciones de ensamblaje y anotación respectivamente.
Como las tuberías mencionadas cubren organismos para los que ya tenemos algunas secuencias en UniProtKB, estas secuencias existentes tienen que ser reconciliadas con las importadas. El procedimiento funciona de la siguiente manera:
- Las secuencias de los genomas que no son del INSDC se mapean primero con sus homólogos de UniProtKB bajo condiciones estrictas, requiriendo un 100% de identidad en el 100% de la longitud de las dos secuencias. Estas entradas se marcan como parte del proteoma (es decir, se vinculan a «Proteomes» a través del identificador del proteoma) y se actualizan con una referencia cruzada de Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeq.
- Las secuencias genómicas que no son del INSDC y que están ausentes de UniProtKB se importan a UniProtKB/TrEMBL. Estas entradas se marcan como parte del proteoma y tienen una referencia cruzada al recurso apropiado.
- Todas las demás entradas de UniProtKB/Swiss-Prot dentro del proteoma que no se asignan a estos genomas que no son del INSDC se marcan como parte del proteoma.
Por lo tanto, un proteoma se forma a partir de todas las entradas de UniProtKB/Swiss-Prot (independientemente de si se mapean a genomas no anotados por el INSDC) más aquellas entradas de UniProtKB/TrEMBL que se mapean al recurso no-insdc para ese proteoma.
Hasta la fecha estas líneas se han utilizado para poblar UniProtKB con secuencias adicionales para el proteoma humano, los principales organismos modelo y otras especies de especial interés (véase el titular Proteomas completos para <i>Homo sapiens</i> y <i>Mus musculus</i>).
Ver también: ¿De dónde proceden las secuencias de proteínas de UniProtKB?
¿Qué genomas secuenciados están disponibles como proteomas en UniProt?
El portal Proteomes ofrece conjuntos de secuencias de proteínas obtenidos a partir de la traducción de genomas completamente secuenciados. Los genomas publicados del NCBI Genome se incorporan a UniProt si cumplen los siguientes criterios:
- El genoma está anotado y se dispone de un conjunto de secuencias codificantes.
- El número de secuencias codificantes predichas se encuentra dentro de un rango estadísticamente significativo de los proteomas publicados de especies vecinas.
Todos los proteomas generados de esta manera pasan por nuestra línea de reducción de redundancia de Proteomes.
Ver también:
¿Con qué frecuencia se publica UniProt? ¿Cuál es el plazo de sincronización con otras bases de datos?
¿Cómo se recuperan los proteomas?
Los proteomas pueden recuperarse a través de la sección Proteomes del sitio web de UniProt, que proporciona enlaces de descarga para varios formatos.
Alternativamente, todas las entradas que forman un proteoma, pueden recuperarse de UniProtKB buscando el identificador del proteoma en el campo proteome
. Un identificador de proteoma identifica de forma única el conjunto de proteínas correspondientes a un único ensamblaje de un genoma completamente secuenciado.
Por ejemplo, para recuperar el proteoma de Escherichia coli (cepa K12), la consulta requerida sería:
- Consulta: proteoma:UP000000625
Tenga en cuenta que puede haber varios proteomas por identificador taxonómico. El identificador taxonómico puede utilizarse para consultar el campo taxonomy
o el campo organism
, junto con la referencia cruzada a «Proteomas». Esto dará como resultado la recuperación de todas las secuencias de proteomas en o por debajo del rango taxonómico especificado por el identificador. Por ejemplo, para recuperar el proteoma de Escherichia coli (cepa K12) y todos los proteomas en nodos taxonómicos inferiores (subcepas como Escherichia coli (cepa K12 / DH10B)), la consulta requerida sería:
- Consulta: taxonomía:83333 AND proteomas:*
¿Cómo puedo descargar proteomas?
Nuestro servidor FTP permite descargar conjuntos de datos precalculados para proteomas de referencia, basados en una perspectiva centrada en los genes. Para cada proteoma de referencia, están disponibles archivos FASTA de proteínas (compuestos por secuencias canónicas y adicionales), archivos de mapeo de genes, archivos FASTA de secuencias de ADN codificante (CDS) y archivos de mapeo de bases de datos. Puede ser aconsejable preferir una descarga FTP de estos conjuntos precalculados en lugar de la descarga HTTP de los resultados de la consulta en el sitio web, porque los flujos HTTP para grandes conjuntos de datos tienden a fallar después de un tiempo debido a la pérdida de paquetes.
Para descargar los resultados de una búsqueda de texto en UniProtKB:
- Haga clic en el botón Descargar
- Elija el formato de descarga
Para descargar sus proteomas favoritos de forma programada, diríjase a la página de ayuda Descarga de datos en cada publicación de UniProt, donde encontrará un ejemplo de código que ilustra cómo descargar los proteomas de todos los organismos por debajo de un nodo taxonómico determinado en formato FASTA.
Tenga en cuenta que los formatos de descarga que describen entradas completas de UniProtKB (texto plano, XML, RDF/XML) incluyen sólo las secuencias de proteínas «canónicas» o mostradas de las entradas de UniProtKB. Estas secuencias canónicas también pueden descargarse en formato FASTA (opción Canonical sequence data in FASTA format
), al igual que un conjunto de secuencias de proteínas que incluye tanto las secuencias canónicas como las «secuencias de isoformas» revisadas manualmente de UniProtKB/Swiss-Prot (cuando estén disponibles) utilizando la opción Canonical and isoform sequence data in FASTA format
.
Ver también:
Deja una respuesta