Wie Internet-Suchmaschinen funktionieren
On November 12, 2021 by adminWenn die meisten Menschen von Internet-Suchmaschinen sprechen, meinen sie eigentlich Suchmaschinen für das World Wide Web. Bevor das Web der sichtbarste Teil des Internets wurde, gab es bereits Suchmaschinen, die den Menschen halfen, Informationen im Netz zu finden. Programme mit Namen wie „Gopher“ und „Archie“ führten Indizes von Dateien, die auf mit dem Internet verbundenen Servern gespeichert waren, und verkürzten den Zeitaufwand für die Suche nach Programmen und Dokumenten erheblich. In den späten 1980er Jahren konnte man das Internet nur dann sinnvoll nutzen, wenn man wusste, wie man Gopher, Archie, Veronica und Co. benutzt.
Heute beschränken die meisten Internetnutzer ihre Suche auf das Web, daher beschränken wir uns in diesem Artikel auf Suchmaschinen, die sich auf den Inhalt von Webseiten konzentrieren.
Werbung
Bevor eine Suchmaschine Ihnen sagen kann, wo sich eine Datei oder ein Dokument befindet, muss es gefunden werden. Um Informationen auf den Hunderten von Millionen von Webseiten zu finden, die es gibt, setzt eine Suchmaschine spezielle Software-Roboter, sogenannte Spider, ein, die Listen der Wörter erstellen, die auf den Webseiten gefunden werden. Wenn ein Spider seine Listen erstellt, nennt man diesen Vorgang Web-Crawling. (Es hat einige Nachteile, einen Teil des Internets als World Wide Web zu bezeichnen – eine große Anzahl von spinnenartigen Namen für Tools ist einer davon). Um eine brauchbare Liste von Wörtern zu erstellen und zu pflegen, müssen die Spider einer Suchmaschine viele Seiten durchsuchen.
Wie beginnt ein Spider seine Reise durch das Web? Die üblichen Ausgangspunkte sind Listen von stark genutzten Servern und sehr beliebten Seiten. Der Spider beginnt mit einer populären Site, indiziert die Wörter auf ihren Seiten und verfolgt jeden Link, der auf der Site gefunden wird. Auf diese Weise beginnt das Spidering-System schnell, sich über die am meisten genutzten Teile des Webs zu verbreiten.
Google begann als akademische Suchmaschine. In dem Papier, in dem beschrieben wird, wie das System aufgebaut wurde, geben Sergey Brin und Lawrence Page ein Beispiel dafür, wie schnell ihre Spider arbeiten können. Sie bauten ihr ursprüngliches System so auf, dass sie mehrere Spider einsetzten, in der Regel drei auf einmal. Jeder Spider konnte etwa 300 Verbindungen zu Webseiten gleichzeitig offen halten. In der Spitze konnte das System mit vier Spidern über 100 Seiten pro Sekunde durchsuchen und dabei etwa 600 Kilobyte Daten pro Sekunde erzeugen.
Damit alles schnell läuft, musste ein System entwickelt werden, das die Spider mit den notwendigen Informationen versorgte. Das frühe Google-System verfügte über einen eigenen Server, der die URLs an die Spider weiterleitete. Anstatt für den Domain Name Server (DNS), der den Namen eines Servers in eine Adresse umwandelt, von einem Internetdienstanbieter abhängig zu sein, verfügte Google über einen eigenen DNS, um Verzögerungen auf ein Minimum zu reduzieren.
Wenn der Google-Spider eine HTML-Seite betrachtete, achtete er auf zwei Dinge:
- Die Wörter innerhalb der Seite
- Wo die Wörter gefunden wurden
Wörter, die im Titel, in den Untertiteln, in den Meta-Tags und an anderen Stellen von relativer Bedeutung vorkamen, wurden für eine spätere Suche der Nutzer besonders berücksichtigt. Der Google-Spider wurde so entwickelt, dass er jedes wichtige Wort auf einer Seite indiziert, wobei die Artikel „a“, „an“ und „die“ ausgelassen werden. Andere Spider verfolgen andere Ansätze.
Diese verschiedenen Ansätze versuchen in der Regel, den Spider schneller arbeiten zu lassen, den Nutzern eine effizientere Suche zu ermöglichen oder beides. Einige Spider speichern beispielsweise die Wörter im Titel, in den Zwischenüberschriften und in den Links sowie die 100 am häufigsten verwendeten Wörter auf der Seite und jedes Wort in den ersten 20 Textzeilen. Lycos soll diesen Ansatz für das Spidern des Webs verwenden.
Andere Systeme, wie AltaVista, gehen in die andere Richtung und indizieren jedes einzelne Wort auf einer Seite, einschließlich „a“, „an“, „der“ und anderer „unbedeutender“ Wörter. Das Streben nach Vollständigkeit bei diesem Ansatz wird von anderen Systemen durch die Aufmerksamkeit ergänzt, die dem unsichtbaren Teil der Webseite, den Meta-Tags, geschenkt wird. Mehr über Meta-Tags erfahren Sie auf der nächsten Seite.
Schreibe einen Kommentar