Hvordan internet-søgemaskiner fungerer
On november 12, 2021 by adminNår de fleste mennesker taler om internet-søgemaskiner, mener de i virkeligheden World Wide Web-søgemaskiner. Før internettet blev den mest synlige del af internettet, fandtes der allerede søgemaskiner, der kunne hjælpe folk med at finde oplysninger på nettet. Programmer med navne som “gopher” og “Archie” førte indekser over filer, der var gemt på servere, der var forbundet med internettet, og reducerede den tid, der skulle bruges til at finde programmer og dokumenter, dramatisk. I slutningen af 1980’erne betød det at få seriøs værdi af internettet, at man skulle vide, hvordan man brugte gopher, Archie, Veronica og resten.
I dag begrænser de fleste internetbrugere deres søgninger til internettet, så vi vil begrænse denne artikel til søgemaskiner, der fokuserer på indholdet af websider.
Rådgivning
Hvor en søgemaskine kan fortælle dig, hvor en fil eller et dokument er, skal det findes. For at finde oplysninger på de hundredvis af millioner af websider, der findes, anvender en søgemaskine særlige softwarerobotter, kaldet spiders, til at opstille lister over de ord, der findes på webstederne. Når en spider opbygger sine lister, kaldes processen for webcrawling. (Der er visse ulemper ved at kalde en del af internettet for World Wide Web – en af dem er en lang række navne på værktøjer, der er centreret om edderkopper). For at opbygge og vedligeholde en brugbar liste over ord skal en søgemaskines edderkopper kigge på mange sider.
Hvordan begynder en edderkop sine rejser over nettet? De sædvanlige udgangspunkter er lister over meget brugte servere og meget populære sider. Spideren vil begynde med et populært websted, indeksere ordene på dets sider og følge alle de links, der findes på webstedet. På denne måde begynder spidersystemet hurtigt at rejse rundt og spreder sig ud over de mest anvendte dele af nettet.
Google begyndte som en akademisk søgemaskine. I det dokument, der beskriver, hvordan systemet blev bygget op, giver Sergey Brin og Lawrence Page et eksempel på, hvor hurtigt deres spidere kan arbejde. De byggede deres oprindelige system til at bruge flere spidere, normalt tre på én gang. Hver spider kunne holde ca. 300 forbindelser til websider åbne ad gangen. På sit højeste niveau med fire edderkopper kunne deres system gennemgå over 100 sider i sekundet og generere ca. 600 kilobyte data i sekundet.
For at holde det hele kørende hurtigt var det nødvendigt at opbygge et system til at give edderkopperne de nødvendige oplysninger. Det tidlige Google-system havde en server, der var dedikeret til at levere URL’er til spiderne. I stedet for at være afhængig af en internetudbyder med hensyn til domænenavnsserveren (DNS), som oversætter en servers navn til en adresse, havde Google sin egen DNS for at holde forsinkelserne på et minimum.
Når Google-spideren kiggede på en HTML-side, noterede den to ting:
- Ordene på siden
- Hvor ordene blev fundet
Ord, der forekommer i titlen, underteksterne, metatags og andre positioner af relativ betydning, blev noteret med henblik på særlig hensyntagen ved en efterfølgende søgning fra brugeren. Google-spideren blev bygget til at indeksere alle betydningsfulde ord på en side, idet artiklerne “a”, “an” og “the” blev udeladt. Andre edderkopper anvender andre fremgangsmåder.
Disse forskellige fremgangsmåder forsøger normalt at få edderkoppen til at fungere hurtigere, give brugerne mulighed for at søge mere effektivt eller begge dele. Nogle edderkopper holder f.eks. styr på ordene i titlen, underoverskrifterne og links samt de 100 hyppigst anvendte ord på siden og hvert ord i de første 20 linjer af teksten. Det siges, at Lycos anvender denne fremgangsmåde til spidering af nettet.
Andre systemer, f.eks. AltaVista, går i den anden retning og indekserer hvert enkelt ord på en side, herunder “a”, “an”, “the” og andre “ubetydelige” ord. Denne tilgang, som går ud på at være fuldstændig, er på samme måde som andre systemer opmærksom på den usynlige del af websiden, nemlig metatagene. Få mere at vide om metatags på næste side.
Skriv et svar