Hogyan működnek az internetes keresőmotorok
On november 12, 2021 by adminAmikor a legtöbb ember internetes keresőmotorokról beszél, valójában a világhálós keresőmotorokra gondol. Mielőtt a világháló az internet leglátványosabb részévé vált volna, már léteztek keresőmotorok, amelyek segítettek az embereknek információt találni a neten. Az olyan nevű programok, mint a “gopher” és az “Archie” indexeket tartottak az internethez kapcsolódó szervereken tárolt fájlokról, és jelentősen csökkentették a programok és dokumentumok kereséséhez szükséges időt. A nyolcvanas évek végén az internet komoly értéket hozott, ha valaki tudta, hogyan kell használni a gopher-t, az Archie-t, a Veronica-t és a többit.
Most a legtöbb internetfelhasználó a keresést a webre korlátozza, ezért ezt a cikket a weboldalak tartalmára összpontosító keresőmotorokra korlátozzuk.
Hirdetés
Hogy egy keresőmotor meg tudja mondani, hol van egy fájl vagy dokumentum, azt meg kell találni. Ahhoz, hogy a több százmillió létező weblapon információt találjon, a keresőmotor speciális szoftverrobotokat, úgynevezett pókokat alkalmaz, amelyek listákat készítenek a weboldalakon található szavakról. Amikor egy pók építi a listákat, a folyamatot webkúszásnak nevezzük. (Van néhány hátránya annak, hogy az internet egy részét World Wide Webnek nevezzük — az eszközök pókközpontú elnevezések nagy száma az egyik ilyen.) Egy keresőmotor pókjainak rengeteg oldalt kell megnézniük ahhoz, hogy hasznos szólistát tudjanak összeállítani és karbantartani.
Hogyan kezdi meg bármelyik pók a webes utazását? A szokásos kiindulópontok az erősen használt szerverek és a nagyon népszerű oldalak listái. A pók egy népszerű oldallal kezdi, indexeli az oldalain található szavakat, és követ minden, az oldalon található linket. Ily módon a pókrendszer gyorsan elkezd utazni, és szétterjed a Web legszélesebb körben használt részein.
A Google tudományos keresőmotornak indult. A rendszer felépítését leíró tanulmányban Sergey Brin és Lawrence Page példát adnak arra, hogy milyen gyorsan tudnak dolgozni a pókjaik. Kezdeti rendszerüket úgy építették fel, hogy több pókot használjanak, általában hármat egyszerre. Minden pók egyszerre körülbelül 300 kapcsolatot tudott nyitva tartani a weboldalakhoz. Teljesítményük csúcspontján, négy pókot használva, rendszerük másodpercenként több mint 100 oldalt tudott feltérképezni, másodpercenként mintegy 600 kilobájtnyi adatot generálva.
Azért, hogy minden gyorsan működjön, olyan rendszert kellett kiépíteni, amely a pókok számára a szükséges információkat táplálja. A Google korai rendszere egy szerverrel rendelkezett, amely a pókok URL-címekkel való ellátására szolgált. Ahelyett, hogy egy internetszolgáltatótól függött volna a domainnév-kiszolgáló (DNS), amely a szerver nevét címre fordítja, a Google saját DNS-sel rendelkezett, hogy a késedelmeket minimálisra csökkentse.
Amikor a Google pókja megnézett egy HTML-oldalt, két dolgot vett figyelembe:
- Az oldalon belüli szavakat
- Hol találhatók a szavak
A címben, alcímekben, meta-tagekben és egyéb relatív fontosságú pozíciókban előforduló szavakat a későbbi felhasználói keresés során különös tekintettel jegyezte meg. A Google pókját úgy építették fel, hogy minden jelentős szót indexeljen egy oldalon, kihagyva az “a”, “an” és “the” szócikkeket. Más pókok más megközelítést alkalmaznak.
Ezek a különböző megközelítések általában arra törekednek, hogy a pók gyorsabban működjön, a felhasználók hatékonyabban tudjanak keresni, vagy mindkettőre. Egyes pókok például nyomon követik a címben, alcímekben és linkekben szereplő szavakat, valamint az oldalon található 100 leggyakrabban használt szót és a szöveg első 20 sorának minden egyes szavát. A Lycos állítólag ezt a megközelítést alkalmazza a web pókozására.
Más rendszerek, mint például az AltaVista, a másik irányba mennek, és az oldal minden egyes szavát indexelik, beleértve az “a”, “an”, “the” és más “jelentéktelen” szavakat is. A teljességre való törekvés ebben a megközelítésben más rendszerekhez hasonlóan nagy figyelmet fordítanak a weblap nem látható részére, a meta címkékre. A következő oldalon többet megtudhat a meta címkékről.
Vélemény, hozzászólás?