Cum funcționează motoarele de căutare pe Internet
On noiembrie 12, 2021 by adminCând majoritatea oamenilor vorbesc despre motoarele de căutare pe Internet, ei se referă de fapt la motoarele de căutare pe World Wide Web. Înainte ca Web-ul să devină partea cea mai vizibilă a Internetului, existau deja motoare de căutare pentru a ajuta oamenii să găsească informații pe Net. Programe cu nume precum „gopher” și „Archie” păstrau indexuri ale fișierelor stocate pe serverele conectate la Internet și reduceau dramatic timpul necesar pentru a găsi programe și documente. La sfârșitul anilor 1980, obținerea unei valori serioase de pe Internet însemna să știi cum să folosești gopher, Archie, Veronica și restul.
Astăzi, majoritatea utilizatorilor de Internet își limitează căutările la Web, așa că vom limita acest articol la motoarele de căutare care se concentrează pe conținutul paginilor Web.
Publicitate
Înainte ca un motor de căutare să vă poată spune unde se află un fișier sau un document, acesta trebuie să fie găsit. Pentru a găsi informații pe sutele de milioane de pagini web care există, un motor de căutare folosește roboți software speciali, numiți spider, pentru a construi liste cu cuvintele găsite pe site-urile web. Atunci când un spider își construiește listele, procesul se numește Web crawling. (Există unele dezavantaje în a numi o parte a internetului World Wide Web – un set mare de nume centrate pe arahnide pentru instrumente este unul dintre ele). Pentru a construi și menține o listă utilă de cuvinte, păianjenii unui motor de căutare trebuie să se uite la o mulțime de pagini.
Cum își începe orice păianjen călătoriile pe Web? Punctele de plecare obișnuite sunt listele de servere foarte utilizate și paginile foarte populare. Păianjenul va începe cu un site popular, indexând cuvintele de pe paginile sale și urmărind fiecare legătură găsită în cadrul site-ului. În acest fel, sistemul de păianjen începe rapid să călătorească, răspândindu-se pe cele mai utilizate porțiuni ale Web-ului.
Google a început ca un motor de căutare academic. În lucrarea care descrie modul în care a fost construit sistemul, Sergey Brin și Lawrence Page dau un exemplu despre cât de repede pot lucra spiderii lor. Ei au construit sistemul lor inițial pentru a utiliza mai mulți spider, de obicei trei în același timp. Fiecare spider putea menține deschise aproximativ 300 de conexiuni la pagini web în același timp. La performanțe maxime, folosind patru spider, sistemul lor putea parcurge peste 100 de pagini pe secundă, generând în jur de 600 de kiloocteți de date în fiecare secundă.
Pentru ca totul să funcționeze rapid a trebuit să construiască un sistem care să alimenteze spiderii cu informațiile necesare. Primul sistem Google avea un server dedicat furnizării de URL-uri pentru păianjeni. În loc să depindă de un furnizor de servicii de internet pentru serverul de nume de domeniu (DNS) care traduce numele unui server într-o adresă, Google avea propriul DNS, pentru a menține întârzierile la un nivel minim.
Când păianjenul Google se uita la o pagină HTML, lua notă de două lucruri:
- Cuvintele din pagină
- Unde se găseau cuvintele
Cele care apăreau în titlu, subtitluri, meta tag-uri și alte poziții de importanță relativă erau notate pentru a fi luate în considerare în mod special în timpul unei căutări ulterioare a utilizatorului. Păianjenul Google a fost construit pentru a indexa fiecare cuvânt semnificativ de pe o pagină, lăsând la o parte articolele „a”, „an” și „the”. Alte spider-uri adoptă abordări diferite.
Aceste abordări diferite încearcă, de obicei, să facă spider-ul să funcționeze mai rapid, să permită utilizatorilor să efectueze căutări mai eficiente sau ambele. De exemplu, unii păianjeni vor ține evidența cuvintelor din titlu, subtitluri și link-uri, împreună cu cele 100 de cuvinte cele mai frecvent folosite pe pagină și fiecare cuvânt din primele 20 de rânduri de text. Se spune că Lycos folosește această abordare pentru a spiona Web-ul.
Alte sisteme, cum ar fi AltaVista, merg în cealaltă direcție, indexând fiecare cuvânt de pe o pagină, inclusiv „a”, „an”, „the” și alte cuvinte „nesemnificative”. Impulsul către exhaustivitate în această abordare este egalat de alte sisteme în atenția acordată părții nevăzute a paginii web, metaetichetele. Aflați mai multe despre meta tag-uri pe pagina următoare.
.
Lasă un răspuns