Jak fungují internetové vyhledávače
On 12 listopadu, 2021 by adminKdyž většina lidí mluví o internetových vyhledávačích, myslí tím ve skutečnosti vyhledávače World Wide Web. Ještě předtím, než se web stal nejviditelnější součástí internetu, existovaly vyhledávače, které lidem pomáhaly vyhledávat informace na síti. Programy s názvy jako „gopher“ a „Archie“ udržovaly indexy souborů uložených na serverech připojených k internetu a výrazně zkrátily dobu potřebnou k nalezení programů a dokumentů. Koncem osmdesátých let minulého století znamenalo získat z Internetu seriózní užitek umět používat programy gopher, Archie, Veronica a další.
Dnes se většina uživatelů Internetu omezuje na vyhledávání na webu, proto se v tomto článku omezíme na vyhledávače, které se zaměřují na obsah webových stránek.
Reklama
Než vám vyhledávač řekne, kde se soubor nebo dokument nachází, musí být nalezen. Aby vyhledávač našel informace na stovkách milionů existujících webových stránek, používá speciální softwarové roboty, tzv. pavouky, kteří vytvářejí seznamy slov nalezených na webových stránkách. Když pavouk vytváří své seznamy, nazývá se tento proces procházení webu. (Nazývání části internetu World Wide Web má některé nevýhody – jednou z nich je velký soubor názvů nástrojů zaměřených na pavoukovce). Aby mohl pavouk vyhledávače vytvořit a udržovat užitečný seznam slov, musí se podívat na spoustu stránek.
Jak každý pavouk začíná své putování po webu? Obvyklým výchozím bodem jsou seznamy hojně využívaných serverů a velmi populárních stránek. Pavouk začne s populárním webem, indexuje slova na jeho stránkách a sleduje každý odkaz, který na něm najde. Tímto způsobem začne pavoučí systém rychle cestovat a rozšíří se po nejpoužívanějších částech webu.
Google začal jako akademický vyhledávač. V článku, který popisuje, jak byl systém vytvořen, uvádějí Sergey Brin a Lawrence Page příklad, jak rychle mohou jejich pavouci pracovat. Svůj původní systém postavili tak, aby používal více pavouků, obvykle tři najednou. Každý pavouk mohl mít najednou otevřeno asi 300 spojení s webovými stránkami. Při maximálním výkonu, kdy používali čtyři pavouky, mohl jejich systém procházet více než 100 stránek za sekundu a každou sekundu generovat přibližně 600 kilobajtů dat.
Udržet vše v rychlém chodu znamenalo vybudovat systém, který by pavoukům dodával potřebné informace. Raný systém Google měl server určený k poskytování adres URL pavoukům. Namísto závislosti na poskytovateli internetových služeb v oblasti serveru doménových jmen (DNS), který převádí název serveru na adresu, měl Google vlastní DNS, aby se zpoždění snížilo na minimum.
Když se pavouk Google podíval na stránku HTML, všímal si dvou věcí:
- Slova uvnitř stránky
- Kde se slova nacházela
Slova vyskytující se v nadpisu, podnadpisech, metaznačkách a dalších relativně důležitých pozicích byla zaznamenána pro zvláštní pozornost při následném vyhledávání uživatelem. Pavouk Google byl sestaven tak, aby indexoval každé významné slovo na stránce, přičemž vynechal členy „a“, „an“ a „the“. Ostatní pavouci používají různé přístupy.
Tyto různé přístupy se obvykle snaží zrychlit práci pavouka, umožnit uživatelům efektivnější vyhledávání nebo obojí. Někteří pavouci například sledují slova v nadpisu, podnadpisech a odkazech, dále 100 nejčastěji používaných slov na stránce a každé slovo v prvních 20 řádcích textu. Lycos údajně používá tento přístup k pavoukování webu.
Jiné systémy, například AltaVista, jdou opačným směrem a indexují každé slovo na stránce, včetně „a“, „an“, „the“ a dalších „nevýznamných“ slov. Tlak na úplnost v tomto přístupu se u jiných systémů vyrovná pozornosti věnované neviditelné části webové stránky, meta tagům. Více o metaznačkách se dozvíte na další stránce.
Napsat komentář