Come funzionano i motori di ricerca su Internet
Il Novembre 12, 2021 da adminQuando la maggior parte delle persone parla di motori di ricerca su Internet, in realtà intende i motori di ricerca del World Wide Web. Prima che il Web diventasse la parte più visibile di Internet, c’erano già dei motori di ricerca per aiutare le persone a trovare informazioni sulla Rete. Programmi con nomi come “gopher” e “Archie” mantenevano indici di file memorizzati su server collegati a Internet, e riducevano drasticamente la quantità di tempo necessaria per trovare programmi e documenti. Alla fine degli anni ’80, ottenere un valore serio da Internet significava sapere come usare gopher, Archie, Veronica e il resto.
Oggi, la maggior parte degli utenti di Internet limitano le loro ricerche al Web, quindi limiteremo questo articolo ai motori di ricerca che si concentrano sul contenuto delle pagine Web.
Precisione
Prima che un motore di ricerca possa dirvi dove si trova un file o documento, deve essere trovato. Per trovare informazioni sulle centinaia di milioni di pagine web che esistono, un motore di ricerca impiega speciali robot software, chiamati spider, per costruire liste di parole trovate sui siti web. Quando uno spider costruisce le sue liste, il processo è chiamato Web crawling. (Ci sono alcuni svantaggi nel chiamare parte di Internet il World Wide Web — un grande insieme di nomi aracnoidi-centrici per gli strumenti è uno di questi). Per costruire e mantenere una lista utile di parole, gli spider di un motore di ricerca devono guardare molte pagine.
Come inizia uno spider i suoi viaggi sul Web? I soliti punti di partenza sono liste di server molto usati e pagine molto popolari. Lo spider inizierà con un sito popolare, indicizzando le parole sulle sue pagine e seguendo ogni link trovato all’interno del sito. In questo modo, il sistema di spidering inizia rapidamente a viaggiare, diffondendosi attraverso le porzioni più usate del Web.
Google iniziò come un motore di ricerca accademico. Nel documento che descrive come è stato costruito il sistema, Sergey Brin e Lawrence Page danno un esempio di quanto velocemente possano lavorare i loro spider. Hanno costruito il loro sistema iniziale per utilizzare più spider, di solito tre alla volta. Ogni spider poteva tenere aperte circa 300 connessioni a pagine web alla volta. Al suo massimo rendimento, usando quattro spider, il loro sistema poteva scansionare oltre 100 pagine al secondo, generando circa 600 kilobyte di dati ogni secondo.
Mantenere tutto in funzione velocemente significava costruire un sistema per alimentare le informazioni necessarie agli spider. Il primo sistema di Google aveva un server dedicato a fornire gli URL agli spider. Piuttosto che dipendere da un provider di servizi Internet per il server dei nomi di dominio (DNS) che traduce il nome di un server in un indirizzo, Google aveva il proprio DNS, al fine di mantenere i ritardi al minimo.
Quando lo spider di Google guardava una pagina HTML, prendeva nota di due cose:
- Le parole all’interno della pagina
- Dove si trovavano le parole
Le parole presenti nel titolo, sottotitoli, meta tag e altre posizioni di importanza relativa venivano annotate per una considerazione speciale durante una successiva ricerca dell’utente. Lo spider di Google è stato costruito per indicizzare ogni parola significativa su una pagina, lasciando fuori gli articoli “a”, “an” e “the”. Altri spider adottano approcci diversi.
Questi approcci diversi di solito tentano di far funzionare lo spider più velocemente, di permettere agli utenti di cercare in modo più efficiente, o entrambi. Per esempio, alcuni spider tengono traccia delle parole nel titolo, nei sottotitoli e nei link, insieme alle 100 parole più frequentemente usate nella pagina e ad ogni parola nelle prime 20 righe di testo. Si dice che Lycos usi questo approccio per spiderizzare il Web.
Altri sistemi, come AltaVista, vanno nell’altra direzione, indicizzando ogni singola parola su una pagina, incluse “a”, “an”, “the” e altre parole “insignificanti”. La spinta verso la completezza in questo approccio è abbinata da altri sistemi nell’attenzione data alla parte non vista della pagina web, i meta tag. Per saperne di più sui meta-tag nella prossima pagina.
Lascia un commento