Hur sökmotorer på Internet fungerar
On november 12, 2021 by adminNär de flesta talar om sökmotorer på Internet menar de egentligen sökmotorer på World Wide Web. Innan webben blev den mest synliga delen av Internet fanns det redan sökmotorer som hjälpte människor att hitta information på nätet. Program med namn som ”gopher” och ”Archie” höll index över filer som lagrades på servrar som var anslutna till Internet och minskade dramatiskt den tid som krävdes för att hitta program och dokument. I slutet av 1980-talet var det för att få ett seriöst värde från Internet nödvändigt att veta hur man använde gopher, Archie, Veronica och resten.
I dag begränsar de flesta Internetanvändare sina sökningar till webben, så vi begränsar den här artikeln till sökmotorer som fokuserar på innehållet i webbsidor.
Reklam
För att en sökmotor ska kunna tala om var en fil eller ett dokument finns, måste den hittas. För att hitta information på de hundratals miljoner webbsidor som finns använder en sökmotor speciella mjukvarurobotar, så kallade spindlar, för att bygga upp listor över de ord som finns på webbplatser. När en spindel bygger upp sina listor kallas processen för webbcrawling. (Det finns vissa nackdelar med att kalla en del av Internet för World Wide Web – en av dem är en stor uppsättning namn på verktyg som är inriktade på spindeldjur.) För att bygga upp och upprätthålla en användbar ordlista måste en sökmotors spindlar titta på många sidor.
Hur börjar en spindel sina resor över webben? De vanliga utgångspunkterna är listor över mycket använda servrar och mycket populära sidor. Spindeln börjar med en populär webbplats, indexerar orden på dess sidor och följer varje länk som finns på webbplatsen. På detta sätt börjar spindelsystemet snabbt resa och sprider sig över de mest använda delarna av webben.
Google började som en akademisk sökmotor. I det dokument som beskriver hur systemet byggdes ger Sergey Brin och Lawrence Page ett exempel på hur snabbt deras spindlar kan arbeta. De byggde sitt ursprungliga system för att använda flera spindlar, vanligtvis tre åt gången. Varje spindel kunde hålla ungefär 300 anslutningar till webbsidor öppna samtidigt. När deras system var som mest effektivt, med fyra spindlar, kunde det gå igenom över 100 sidor i sekunden och generera cirka 600 kilobyte data varje sekund.
För att hålla allting igång snabbt var det nödvändigt att bygga ett system för att mata nödvändig information till spindlarna. Det tidiga Google-systemet hade en server som var avsedd att förse spindlarna med webbadresser. I stället för att vara beroende av en Internetleverantör för domännamnsservern (DNS), som översätter en servers namn till en adress, hade Google sin egen DNS för att hålla fördröjningarna nere till ett minimum.
När Google-spindeln tittade på en HTML-sida noterade den två saker:
- Orden på sidan
- Om orden fanns
Order som förekom i titeln, undertexter, metataggar och andra positioner av relativ betydelse noterades för att särskilt beaktas vid en efterföljande sökning av användaren. Google-spindeln byggdes för att indexera varje betydelsefullt ord på en sida och utelämnade artiklarna ”a”, ”an” och ”the”. Andra spindlar har olika tillvägagångssätt.
Dessa olika tillvägagångssätt försöker vanligtvis få spindeln att fungera snabbare, göra det möjligt för användarna att söka mer effektivt, eller både och. Vissa spindlar håller till exempel reda på orden i rubriken, underrubrikerna och länkarna, tillsammans med de 100 mest frekvent använda orden på sidan och varje ord i de 20 första textraderna. Lycos sägs använda detta tillvägagångssätt för att spidra webben.
Andra system, till exempel AltaVista, går åt andra hållet och indexerar varje enskilt ord på en sida, inklusive ”a”, ”an”, ”the” och andra ”obetydliga” ord. Denna strävan efter fullständighet i detta tillvägagångssätt motsvaras av andra system när det gäller den uppmärksamhet som ägnas åt den osynliga delen av webbsidan, metataggarna. Läs mer om metataggar på nästa sida.
Lämna ett svar