Miten Internet-hakukoneet toimivat
On 12 marraskuun, 2021 by adminKun useimmat ihmiset puhuvat Internet-hakukoneista, he tarkoittavat oikeastaan World Wide Webin hakukoneita. Ennen kuin Webistä tuli Internetin näkyvin osa, oli jo olemassa hakukoneita, jotka auttoivat ihmisiä löytämään tietoa verkosta. Ohjelmat, joilla oli nimiä kuten ”gopher” ja ”Archie”, pitivät hakemistoja Internetiin liitetyille palvelimille tallennetuista tiedostoista ja lyhensivät huomattavasti ohjelmien ja asiakirjojen etsimiseen kuluvaa aikaa. 1980-luvun loppupuolella Internetistä saatavan vakavan hyödyn saaminen tarkoitti sitä, että piti osata käyttää gopheria, Archieta, Veronicaa ja muita.
Tänä päivänä suurin osa Internetin käyttäjistä rajoittaa etsintänsä WWW:hen, joten rajaamme tämän artikkelin koskemaan hakukoneita, jotka keskittyvät WWW-sivujen sisältöön.
Esittely
Ennen kuin hakumoottori pystyy kertomaan, missä tiedosto tai dokumentti on, se on löydettävä. Löytääkseen tietoa sadoista miljoonista olemassa olevista Web-sivuista hakukone käyttää erityisiä ohjelmistorobotteja, joita kutsutaan hämähäkeiksi, rakentamaan luetteloita Web-sivuilta löytyvistä sanoista. Kun hämähäkki rakentaa listojaan, prosessia kutsutaan verkkoryömimiseksi. (Internetin osan kutsumisessa World Wide Webiksi on joitakin haittapuolia – yksi niistä on suuri joukko työkalujen arachnidi-keskeisiä nimiä.) Rakentaakseen ja ylläpitääkseen käyttökelpoista sanaluetteloa hakukoneen hämähäkkien on katsottava paljon sivuja.
Miten hämähäkit aloittavat matkansa Webissä? Tavallisia lähtökohtia ovat luettelot paljon käytetyistä palvelimista ja erittäin suosituista sivuista. Hämähäkki aloittaa suositusta sivustosta, indeksoi sen sivuilla olevat sanat ja seuraa jokaista sivustolta löytyvää linkkiä. Näin hämähäkkijärjestelmä lähtee nopeasti liikkeelle ja leviää Webin laajimmin käytettyihin osiin.
Google alkoi akateemisena hakukoneena. Järjestelmän rakentamista kuvaavassa artikkelissa Sergey Brin ja Lawrence Page antavat esimerkin siitä, miten nopeasti heidän hämähäkkinsä voivat toimia. He rakensivat alkuperäisen järjestelmänsä käyttämään useita hämähäkkejä, yleensä kolmea kerrallaan. Kukin hämähäkki pystyi pitämään kerrallaan auki noin 300 yhteyttä verkkosivuille. Huipputehollaan, kun he käyttivät neljää hämähäkkiä, heidän järjestelmänsä pystyi selaamaan yli 100 sivua sekunnissa ja tuottamaan noin 600 kilotavua dataa sekunnissa.
Kaiken pitäminen nopeasti käynnissä tarkoitti, että piti rakentaa järjestelmä, jolla hämähäkeille syötetään tarvittavaa tietoa. Googlen varhaisessa järjestelmässä oli palvelin, joka oli omistettu URL-osoitteiden toimittamiseen hämähäkille. Sen sijaan, että Google olisi ollut riippuvainen Internet-palveluntarjoajasta DNS-palvelimen (domain name server) osalta, joka kääntää palvelimen nimen osoitteeksi, sillä oli oma DNS, jotta viiveet jäisivät mahdollisimman vähäisiksi.
Kun Googlen hämähäkki katsoi HTML-sivua, se pani merkille kaksi asiaa:
- Sivun sisällä olevat sanat
- Missä sanat löytyivät
otsikossa, väliotsikoissa, metatunnisteissa ja muissa suhteellisesti tärkeissä paikoissa esiintyvät sanat pantiin merkille, jotta ne voitaisiin ottaa erityisen tarkasti huomioon myöhemmässä käyttäjähaussa. Googlen hämähäkki rakennettiin indeksoimaan kaikki sivun merkittävät sanat jättäen pois artikkelit ”a”, ”an” ja ”the”. Muut hämähäkit käyttävät erilaisia lähestymistapoja.
Näillä erilaisilla lähestymistavoilla yritetään yleensä saada hämähäkki toimimaan nopeammin, antaa käyttäjille mahdollisuus tehdä hakuja tehokkaammin tai molempia. Jotkin hämähäkit pitävät esimerkiksi kirjaa otsikon, alaotsikoiden ja linkkien sanoista sekä sivun sadasta useimmin käytetystä sanasta ja jokaisesta sanasta 20 ensimmäisellä tekstirivillä. Lycosin sanotaan käyttävän tätä lähestymistapaa Webin hämähäkkeilyyn.
Toiset järjestelmät, kuten AltaVista, menevät toiseen suuntaan indeksoimalla sivun jokaisen sanan, mukaan lukien ”a”, ”an”, ”the” ja muut ”merkityksettömät” sanat. Tämän lähestymistavan pyrkimys täydellisyyteen on sama kuin muissa järjestelmissä, jotka kiinnittävät huomiota verkkosivun näkymättömään osaan eli metatunnisteisiin. Lue lisää metatageista seuraavalla sivulla.
Vastaa