How Internet Search Engines Work
On november 12, 2021 by adminWanneer de meeste mensen het over Internet zoekmachines hebben, bedoelen ze eigenlijk World Wide Web zoekmachines. Voordat het Web het meest zichtbare deel van het Internet werd, waren er al zoekmachines om mensen te helpen informatie op het Net te vinden. Programma’s met namen als “gopher” en “Archie” hielden indexen bij van bestanden die waren opgeslagen op servers die waren aangesloten op het internet, en verkortten de tijd die nodig was om programma’s en documenten te vinden drastisch. Aan het eind van de jaren tachtig betekende internet dat je moest weten hoe je gopher, Archie, Veronica en de rest moest gebruiken.
Heden ten dage beperken de meeste internetgebruikers hun zoekacties tot het web, dus we beperken ons in dit artikel tot zoekmachines die zich richten op de inhoud van webpagina’s.
Aanbeveling
Voordat een zoekmachine je kan vertellen waar een bestand of document zich bevindt, moet het eerst worden gevonden. Om informatie te vinden op de honderden miljoenen webpagina’s die er zijn, maakt een zoekmachine gebruik van speciale softwarerobots, spiders genaamd, om lijsten op te stellen van de woorden die op websites worden gevonden. Wanneer een spider zijn lijsten aan het samenstellen is, wordt dit proces Web crawling genoemd. (Er zijn enkele nadelen verbonden aan het feit dat een deel van het Internet het World Wide Web wordt genoemd — een grote reeks arachnide-centrische namen voor gereedschappen is er daar één van). Om een bruikbare woordenlijst op te bouwen en bij te houden, moeten de spinnen van een zoekmachine een heleboel pagina’s bekijken.
Hoe begint een spin zijn reizen over het Web? De gebruikelijke startpunten zijn lijsten van veel gebruikte servers en zeer populaire pagina’s. De spider begint met een populaire site, indexeert de woorden op de pagina’s en volgt elke link die binnen de site wordt gevonden. Op deze manier begint het spidende systeem zich snel te verplaatsen en verspreidt het zich over de meest gebruikte delen van het Web.
Google begon als een academische zoekmachine. In de paper die beschrijft hoe het systeem werd gebouwd, geven Sergey Brin en Lawrence Page een voorbeeld van hoe snel hun spiders kunnen werken. Zij bouwden hun aanvankelijke systeem om meerdere spiders te gebruiken, meestal drie tegelijk. Elke spider kon ongeveer 300 verbindingen met webpagina’s tegelijk open houden. Op het hoogtepunt, bij gebruik van vier spiders, kon hun systeem meer dan 100 pagina’s per seconde crawlen, waarbij elke seconde ongeveer 600 kilobyte aan gegevens werd gegenereerd.
Om alles snel te laten verlopen, moest een systeem worden gebouwd om de spiders van de nodige informatie te voorzien. Het vroege Google-systeem had een server die URL’s aan de spiders kon leveren. In plaats van afhankelijk te zijn van een Internet service provider voor de domeinnaam server (DNS) die de naam van een server vertaalt in een adres, had Google zijn eigen DNS, om vertragingen tot een minimum te beperken.
Wanneer de Google-spider een HTML-pagina bekeek, noteerde hij twee dingen:
- De woorden binnen de pagina
- Waar de woorden werden gevonden
Woorden die in de titel, ondertitels, metatags en andere posities van relatief belang voorkwamen, werden genoteerd voor speciale aandacht tijdens een volgende gebruikerszoekopdracht. De Google-spider is zo gebouwd dat elk belangrijk woord op een pagina wordt geïndexeerd, maar dat de artikelen “a”, “an” en “the” worden weggelaten. Andere spiders volgen verschillende benaderingen.
Deze verschillende benaderingen proberen meestal de spider sneller te laten werken, gebruikers efficiënter te laten zoeken, of beide. Sommige spiders houden bijvoorbeeld de woorden in de titel, subkoppen en links bij, samen met de 100 meest gebruikte woorden op de pagina en elk woord in de eerste 20 regels tekst. Naar verluidt gebruikt Lycos deze benadering om het Web te doorzoeken.
Andere systemen, zoals AltaVista, gaan de andere kant op en indexeren elk woord op een pagina, inclusief “a,” “an,” “the” en andere “onbelangrijke” woorden. Het streven naar volledigheid in deze benadering wordt door andere systemen geëvenaard in de aandacht die wordt gegeven aan het ongeziene deel van de webpagina, de metatags. Leer meer over metatags op de volgende pagina.
Geef een antwoord