プロテオームとは何ですか?
On 12月 19, 2021 by adminUniProtでは、ゲノムが完全に解読されたタンパク質のプロテオームセットを提供しています。
プロテオームとは何ですか。 UniProtプロテオームの大部分は、完全に配列決定されたゲノムの翻訳に基づいており、通常、プラスミドやオルガネラゲノムなどの染色体外要素に由来する配列が存在する生物では、そのような配列が含まれることになります。 また、プロテオームには、配列決定エラーやギャップにより現在のゲノムアセンブリにマッピングできない高品質のcDNAに基づくタンパク質配列も含まれることがあります。 これらは、近縁の生物からの相同配列の慎重な分析など、裏付けとなる証拠を手動で確認した後に、プロテオームに含まれる。
同じ生物のゲノムの配列がますます多くなっているため、同じ分類の識別子から個々のプロテオームを区別するために、固有のプロテオーム識別子を導入している。
UniProtプロテオームのキュレーション状況は?
UniProtプロテオームには、手動でレビューしたもの(UniProtKB/Swiss-Prot)と未レビューのもの(UniProtKB/TrEMBL)両方が含まれる場合があります。 <i>Saccharomyces cerevisiae</i> 288C や <i>Escherichia coli</i> K12 株のプロテオームなど、レビュー済みエントリのみからなるプロテオームもあるため、モデル生物のプロテオームでは明らかに多くなっています。 偽遺伝子や疑わしい未解析のORFは削除され、新たに同定・解析された配列が追加されることがある。
UniProt proteomes の大部分は International Nucleotide Sequence Database Consortium (INSDC) に提出されたゲノム配列の翻訳に基づいています。
タンパク質配列を取り込むための補完的パイプラインが、脊椎動物については Ensembl、非脊椎動物については Ensembl Genomes、寄生性線虫については WormBase ParaSite および病原菌ベクターのゲノムについては VectorBase との共同で開発されてきました。 また、NCBI RefSeqでアノテーションされた非冗長ゲノムを選択的にインポートするパイプラインも追加されました。 これらのソースは、INSDCに登録されている遺伝子モデルのアノテーションが不足している、特に注目すべき多くの主要なゲノムのプロテオーム配列を提供しています。 INSDCとnon-INSDCのプロテオームは、それぞれアセンブリとアノテーションのセクションを経由してソースにリンクされています。
上記のパイプラインは、UniProtKBにすでにいくつかの配列がある生物を対象としているので、これらの既存配列とインポートした配列を調整する必要がある。
- 非INSDCゲノムの配列は、まずUniProtKBの対応する配列にマッピングされ、2つの配列の長さの100%に渡って100%の同一性が求められるという厳しい条件下で行われます。 これらのエントリは、プロテオームの一部としてフラグが立てられ(すなわち、プロテオーム識別子により「Proteomes」にリンクされる)、Ensembl/EnsemblGenomes/WormBase/VectorBase/RefSeqクロスリファレンスで更新されます。
- UniProtKBから存在しない非INSDCゲノム配列はUniProtKB/TrEMBLにインポートされています。 これらのエントリーはproteomeの一部としてフラグが立てられ、適切なリソースへの相互参照を持っている。
- これらの非INSDCゲノムにマッピングされていないproteome内の他の全てのUniProtKB/Swiss-Protエントリーは、proteomeの一部としてフラグが立てられている。
したがって、プロテオームは、すべてのUniProtKB/Swiss-Protエントリ(それらが非INSDCアノテーションゲノムにマッピングされているかどうかにかかわらず)と、そのプロテオームの非INSDCリソースにマッピングするそれらのUniProtKB/TrEMBLエントリから形成されています。
現在までに、これらのパイプラインは、UniProtKBに、ヒトプロテオーム、主要なモデル生物およびその他の特別に関心のある種の配列を追加するために使用されている(見出し Complete proteomes for <i>Homo sapiens</i> and <i>Mus musculus</i> を参照されたい)。 UniProtKB タンパク質配列はどこから来たのか?
UniProtでプロテオームとして利用できる配列済みゲノムはどれか?
Proteomesポータルでは、完全配列済みゲノムを翻訳して得られたタンパク質配列セットを提供しています。 NCBI Genomeから公開されたゲノムは、以下の条件を満たす場合にUniProtに取り込まれます。
- ゲノムに注釈があり、コーディング配列のセットが利用可能です。
- 予測されるコーディング配列の数が、近隣の種から公開されたプロテオームの統計的に有意な範囲内にある。
この方法で作成されたすべてのプロテオームは、我々のProteomes redundancy reduction pipelineにかけられる。
プロテオームを取得する方法
プロテオームは、UniProtウェブサイトのProteomesセクションから取得することができ、様々なフォーマットのダウンロードリンクを提供しています。
例えば、Escherichia coli (strain K12)のプロテオームを検索する場合、必要なクエリーは以下のようになります:
- Query: proteome:UP000000625
なお、分類記号ごとに複数のプロテオームがある場合がありますので、注意してください。 分類学上の識別子は、”Proteomes “への相互参照とともに、taxonomy
フィールドまたはorganism
フィールドへの問い合わせに使用することができます。 これにより、識別子で指定された分類学上のランク以下の全てのプロテオーム配列が検索される。 例えば、Escherichia coli (strain K12)のプロテオームと、それより低い分類学上のノード(Escherichia coli (strain K12 / DH10B)などのサブストレート)のプロテオームを検索する場合、以下のクエリーが必要です。
FTPサーバーから、遺伝子中心の観点からあらかじめ計算された参照プロテオームデータセットをダウンロードすることができます。 各参照プロテオームについて、タンパク質FASTAファイル(正規配列と付加配列からなる)、遺伝子マッピングファイル、Coding DNA Sequence(CDS)FASTAファイル、データベースマッピングファイルが用意されています。 これらの事前計算されたセットは、ウェブサイトでのクエリ結果のHTTPダウンロードよりも、FTPダウンロードの方が望ましいかもしれない。なぜなら、大きなデータセットのHTTPストリームは、パケットロスによりしばらくすると失敗する傾向があるからだ。
UniProtKBでテキスト検索した結果をダウンロードするには:
- ダウンロードボタンをクリック
- ダウンロードフォーマットを選択
プログラムで好きなプロテオームをダウンロードするには、ヘルプページのDownloading data at every UniProt releaseに移動し、与えられた分類ノード以下のすべての生物のFASTAフォーマットでのプロテオームのダウンロード方法を示すコード例を見つけるとよいだろう。
完全なUniProtKBエントリーを記述するダウンロード形式(フラットテキスト、XML、RDF/XML)には、UniProtKBエントリーの「標準」または表示タンパク質配列のみが含まれていることに注意してください。 これらの標準配列は、FASTA形式(オプション Canonical sequence data in FASTA format
)でもダウンロードできます。また、標準配列とUniProtKB/Swiss-Prot(利用できる場合)の手動レビューによる「アイソフォーム配列」の両方を含むタンパク質配列のセットは、オプション Canonical and isoform sequence data in FASTA format
を使用してダウンロードすることができます。
コメントを残す