Comment fonctionnent les moteurs de recherche Internet
On novembre 12, 2021 by adminLorsque la plupart des gens parlent de moteurs de recherche Internet, ils veulent en réalité parler des moteurs de recherche du World Wide Web. Avant que le Web ne devienne la partie la plus visible d’Internet, il y avait déjà des moteurs de recherche en place pour aider les gens à trouver des informations sur le Net. Des programmes portant des noms comme « gopher » et « Archie » conservaient des index de fichiers stockés sur des serveurs connectés à l’Internet et réduisaient considérablement le temps nécessaire pour trouver des programmes et des documents. À la fin des années 1980, obtenir une valeur sérieuse d’Internet signifiait savoir comment utiliser gopher, Archie, Veronica et les autres.
Aujourd’hui, la plupart des utilisateurs d’Internet limitent leurs recherches au Web, nous limiterons donc cet article aux moteurs de recherche qui se concentrent sur le contenu des pages Web.
Publicité
Avant qu’un moteur de recherche puisse vous dire où se trouve un fichier ou un document, il doit être trouvé. Pour trouver des informations sur les centaines de millions de pages Web qui existent, un moteur de recherche emploie des robots logiciels spéciaux, appelés spiders, pour construire des listes de mots trouvés sur les sites Web. Lorsqu’une araignée établit ses listes, le processus est appelé « exploration du Web ». (Il y a quelques inconvénients à appeler une partie de l’Internet le World Wide Web – un large ensemble de noms d’outils centrés sur les arachnides en est un). Afin de construire et de maintenir une liste utile de mots, les araignées d’un moteur de recherche doivent regarder beaucoup de pages.
Comment une araignée commence-t-elle ses voyages sur le Web ? Les points de départ habituels sont des listes de serveurs très utilisés et de pages très populaires. L’araignée commencera par un site populaire, indexant les mots de ses pages et suivant chaque lien trouvé dans le site. De cette façon, le système d’araignée commence rapidement à voyager, se répandant sur les portions les plus utilisées du Web.
Google a commencé comme un moteur de recherche universitaire. Dans le document qui décrit comment le système a été construit, Sergey Brin et Lawrence Page donnent un exemple de la rapidité avec laquelle leurs araignées peuvent travailler. Ils ont construit leur système initial de manière à utiliser plusieurs araignées, généralement trois en même temps. Chaque araignée pouvait maintenir environ 300 connexions à des pages Web ouvertes à la fois. Au plus fort de ses performances, en utilisant quatre araignées, leur système pouvait explorer plus de 100 pages par seconde, générant environ 600 kilo-octets de données chaque seconde.
Pour que tout fonctionne rapidement, il fallait construire un système pour alimenter les araignées en informations nécessaires. Le premier système de Google disposait d’un serveur dédié à la fourniture d’URL aux robots d’indexation. Plutôt que de dépendre d’un fournisseur d’accès à Internet pour le serveur de noms de domaine (DNS) qui traduit le nom d’un serveur en adresse, Google disposait de son propre DNS, afin de réduire au maximum les délais.
Lorsque l’araignée de Google examinait une page HTML, elle prenait note de deux choses :
- Les mots dans la page
- Où les mots se trouvaient
Les mots apparaissant dans le titre, les sous-titres, les balises méta et d’autres positions d’importance relative étaient notés pour être particulièrement pris en compte lors d’une recherche ultérieure de l’utilisateur. Le spider de Google a été construit pour indexer chaque mot significatif d’une page, en laissant de côté les articles « a », « an » et « the ». D’autres spiders adoptent des approches différentes.
Ces différentes approches tentent généralement de faire fonctionner le spider plus rapidement, de permettre aux utilisateurs de rechercher plus efficacement, ou les deux. Par exemple, certains spiders gardent la trace des mots du titre, des sous-titres et des liens, ainsi que des 100 mots les plus fréquemment utilisés sur la page et de chaque mot des 20 premières lignes de texte. Lycos utiliserait cette approche pour explorer le Web.
D’autres systèmes, comme AltaVista, vont dans l’autre sens, indexant chaque mot d’une page, y compris « a », « an », « the » et autres mots « insignifiants ». L’effort d’exhaustivité de cette approche est égalé par d’autres systèmes dans l’attention accordée à la partie invisible de la page Web, les métabalises. Apprenez-en davantage sur les balises méta à la page suivante.
Laisser un commentaire