インターネット検索エンジンの仕組み
On 11月 12, 2021 by admin多くの人がインターネット検索エンジンについて話すとき、それは本当にWorld Wide Web検索エンジンのことを指しています。 ウェブがインターネットの最も顕著な一部となる以前から、人々がネット上の情報を見つけるのに役立つ検索エンジンがすでに存在していたのです。 gopher」や「Archie」といった名前のプログラムは、インターネットに接続されたサーバーに保存されたファイルのインデックスを保持し、プログラムや文書を探すのに必要な時間を劇的に短縮していたのである。
今日、ほとんどのインターネットユーザーは検索を Web に限定しているので、この記事では Web ページのコンテンツに焦点を当てた検索エンジンに限定します。
広告
検索エンジンがファイルやドキュメントがある場所を伝える前に、それが見つけられなければなりません。 存在する何億もの Web ページの情報を見つけるために、検索エンジンはスパイダーと呼ばれる特別なソフトウェア ロボットを採用し、Web サイトで見つかった単語のリストを構築します。 スパイダーがリストを構築しているとき、そのプロセスはウェブクローリングと呼ばれます。 (インターネットの一部をワールド・ワイド・ウェブと呼ぶことには、いくつかの不利な点があります。クモの巣のような道具の名前がたくさんあることもその一つです)。
どのようなスパイダーがどのようにウェブを旅するのでしょうか。 通常の出発点は、よく使われるサーバと非常に人気のあるページのリストである。 スパイダーは人気のあるサイトから始め、そのページ上の単語をインデックス化し、サイト内で見つかったすべてのリンクをたどります。 このようにして、スパイダリングシステムはすぐに移動し始め、Web の最も広く使用されている部分に広がっていきます。 システムがどのように構築されたかを説明する論文の中で、Sergey Brin と Lawrence Page は、彼らのスパイダーがいかに速く動作するかの例を示している。 彼らは複数のスパイダー、通常は一度に3つのスパイダーを使うように最初のシステムを構築しました。 それぞれのスパイダーは、一度に約300のウェブページへの接続を開いたままにしておくことができました。 ピーク時には、4 人のスパイダーを使用して、1 秒間に 100 ページ以上をクロールし、毎秒 600 キロバイトのデータを生成することができました。 初期の Google システムでは、スパイダーに URL を提供するための専用サーバーが用意されていました。 サーバー名をアドレスに変換するドメイン名サーバー (DNS) をインターネット サービス プロバイダーに依存するのではなく、Google は独自の DNS を持ち、遅延を最低限に抑えました。
- The words within the page
- Where the words were found
The words occurring in the title, subtitles, meta tags and other positions of relative importance were noted for special consideration during the subsequent user search.Google スパイダーが HTML ページを見ていて気付いたことは 2 点ある:
- The words were found
The words occurring in the table, subtitles, meta tags and other positions of relative importance is noted to the special consideration when a patient search. Google のスパイダーは、”a”、”an”、および “the” という冠詞を除外して、ページ上のすべての重要な単語をインデックス化するように構築されています。 他のスパイダーは異なるアプローチをとります。
これらの異なるアプローチは通常、スパイダーの動作を速くする、ユーザーがより効率的に検索できるようにする、またはその両方を試みます。 たとえば、タイトル、小見出し、リンクの単語、ページで最も頻繁に使われる100の単語、テキストの最初の20行の各単語を記録するスパイダーもいます。 Lycos は Web のスパイダリングにこのアプローチを使用していると言われています。
AltaVista のような他のシステムは別の方向に進み、「a」「an」「the」およびその他の「重要ではない」単語を含め、ページ上のすべての単語をインデックス化します。 このアプローチにおける完全性の追求は、ウェブページの目に見えない部分であるメタタグに注意を払うという点で、他のシステムに匹敵するものである。 メタタグについては、次のページで詳しく説明する
。
コメントを残す