How Internet Search Engines Work
On 12 listopada, 2021 by adminGdy większość ludzi mówi o wyszukiwarkach internetowych, mają na myśli wyszukiwarki World Wide Web. Zanim sieć WWW stała się najbardziej widoczną częścią Internetu, istniały już wyszukiwarki, które pomagały ludziom w znajdowaniu informacji w sieci. Programy o nazwach takich jak „gopher” i „Archie” prowadziły indeksy plików przechowywanych na serwerach podłączonych do Internetu i radykalnie skracały czas potrzebny na znalezienie programów i dokumentów. W późnych latach osiemdziesiątych uzyskanie poważnej wartości z Internetu oznaczało wiedzę, jak korzystać z gophera, Archie, Veroniki i reszty.
Dziś większość użytkowników Internetu ogranicza swoje wyszukiwania do sieci WWW, więc ograniczymy ten artykuł do wyszukiwarek, które koncentrują się na zawartości stron WWW.
Reklama
Zanim wyszukiwarka może powiedzieć, gdzie jest plik lub dokument, musi go znaleźć. Aby znaleźć informacje na setkach milionów stron internetowych, które istnieją, wyszukiwarka zatrudnia specjalne oprogramowanie robotów, zwanych pająkami, do budowania list słów znalezionych na stronach internetowych. Kiedy pająk buduje swoje listy, proces ten nazywany jest indeksowaniem sieci. (Nazywanie części Internetu World Wide Web ma pewne wady – jednym z nich jest duży zestaw pajęczo-centrycznych nazw narzędzi). Aby zbudować i utrzymać użyteczną listę słów, pająki wyszukiwarki muszą przejrzeć wiele stron.
Jak pająk rozpoczyna swoją podróż po sieci? Zwykle punktem wyjścia są listy często używanych serwerów i bardzo popularnych stron. Pająk zacznie od popularnej strony, indeksując słowa na jej stronach i podążając za każdym linkiem znalezionym w obrębie witryny. W ten sposób, system pająka szybko zaczyna podróżować, rozprzestrzeniając się po najczęściej używanych częściach sieci.
Google rozpoczął jako wyszukiwarka akademicka. W dokumencie, który opisuje, jak system został zbudowany, Sergey Brin i Lawrence Page dają przykład tego, jak szybko ich pająki mogą pracować. Zbudowali swój początkowy system, aby używać wielu pająków, zwykle trzech naraz. Każdy pająk mógł utrzymywać około 300 połączeń do stron internetowych otwartych w tym samym czasie. W szczytowym momencie, przy użyciu czterech pająków, ich system mógł przeszukiwać ponad 100 stron na sekundę, generując około 600 kilobajtów danych w każdej sekundzie.
Utrzymanie wszystkiego działającego szybko oznaczało zbudowanie systemu do podawania niezbędnych informacji do pająków. Wczesny system Google miał serwer dedykowany do dostarczania adresów URL do pająków. Zamiast uzależniać się od dostawcy usług internetowych w zakresie serwera nazw domen (DNS), który tłumaczy nazwę serwera na adres, Google miało swój własny DNS, aby ograniczyć opóźnienia do minimum.
Gdy pająk Google patrzył na stronę HTML, zwracał uwagę na dwie rzeczy:
- Słowa w obrębie strony
- Gdzie znajdowały się te słowa
Słowa występujące w tytule, podtytułach, meta tagach i innych pozycjach o względnym znaczeniu były odnotowywane do specjalnego rozpatrzenia podczas późniejszego wyszukiwania przez użytkownika. Pająk Google został zbudowany tak, aby indeksować każde znaczące słowo na stronie, pomijając partykuły „a”, „an” i „the”. Inne pająki przyjmują różne podejścia.
Te różne podejścia zazwyczaj starają się, aby pająk działał szybciej, pozwalają użytkownikom na bardziej efektywne wyszukiwanie lub jedno i drugie. Na przykład, niektóre pająki będą śledzić słowa w tytule, podtytułach i linkach, wraz ze 100 najczęściej używanymi słowami na stronie i każdym słowem w pierwszych 20 liniach tekstu. Mówi się, że Lycos używa tego podejścia do spideringu Web.
Inne systemy, takie jak AltaVista, idą w innym kierunku, indeksując każde pojedyncze słowo na stronie, w tym „a”, „an”, „the” i inne „nieistotne” słowa. Pęd do kompletności w tym podejściu jest dopasowany przez inne systemy w uwadze poświęconej niewidocznej części strony internetowej, meta znacznikom. Dowiedz się więcej o meta tagach na następnej stronie.
Dodaj komentarz