Cómo funcionan los motores de búsqueda de Internet
On noviembre 12, 2021 by adminCuando la mayoría de la gente habla de motores de búsqueda de Internet, se refiere realmente a los motores de búsqueda de la World Wide Web. Antes de que la Web se convirtiera en la parte más visible de Internet, ya existían motores de búsqueda para ayudar a la gente a encontrar información en la Red. Programas con nombres como «gopher» y «Archie» mantenían índices de archivos almacenados en servidores conectados a Internet, y reducían drásticamente el tiempo necesario para encontrar programas y documentos. A finales de la década de 1980, obtener un valor serio de Internet significaba saber cómo utilizar gopher, Archie, Veronica y el resto.
Hoy en día, la mayoría de los usuarios de Internet limitan sus búsquedas a la Web, por lo que limitaremos este artículo a los motores de búsqueda que se centran en el contenido de las páginas Web.
Publicidad
Antes de que un motor de búsqueda pueda decirle dónde está un archivo o documento, debe ser encontrado. Para encontrar información en los cientos de millones de páginas web que existen, un motor de búsqueda emplea robots de software especiales, llamados arañas, para construir listas de las palabras que se encuentran en los sitios web. Cuando una araña construye sus listas, el proceso se denomina rastreo de la Web. (Llamar a una parte de Internet «World Wide Web» tiene algunas desventajas: un gran conjunto de nombres centrados en los arácnidos para las herramientas es una de ellas). Para construir y mantener una lista útil de palabras, las arañas de un motor de búsqueda tienen que mirar muchas páginas.
¿Cómo empieza cualquier araña sus viajes por la Web? Los puntos de partida habituales son listas de servidores muy utilizados y páginas muy populares. La araña comenzará con un sitio popular, indexando las palabras de sus páginas y siguiendo todos los enlaces que encuentre dentro del sitio. De este modo, el sistema de araña comienza a viajar rápidamente, extendiéndose por las partes más utilizadas de la Web.
Google comenzó como un motor de búsqueda académico. En el documento que describe cómo se construyó el sistema, Sergey Brin y Lawrence Page dan un ejemplo de lo rápido que pueden trabajar sus arañas. Construyeron su sistema inicial para utilizar múltiples arañas, normalmente tres a la vez. Cada araña podía mantener abiertas unas 300 conexiones a páginas web a la vez. En su máximo rendimiento, utilizando cuatro arañas, su sistema podía rastrear más de 100 páginas por segundo, generando alrededor de 600 kilobytes de datos por segundo.
Mantener todo funcionando rápidamente significaba construir un sistema para alimentar la información necesaria a las arañas. El primer sistema de Google contaba con un servidor dedicado a proporcionar URLs a las arañas. En lugar de depender de un proveedor de servicios de Internet para el servidor de nombres de dominio (DNS) que traduce el nombre de un servidor en una dirección, Google tenía su propio DNS, con el fin de mantener los retrasos al mínimo.
Cuando la araña de Google observaba una página HTML, tomaba nota de dos cosas:
- Las palabras dentro de la página
- Donde se encontraban las palabras
Las palabras que aparecían en el título, los subtítulos, las metaetiquetas y otras posiciones de importancia relativa se anotaban para tenerlas en cuenta especialmente durante una búsqueda posterior del usuario. La araña de Google se creó para indexar todas las palabras significativas de una página, dejando fuera los artículos «a», «an» y «the». Otras arañas adoptan enfoques diferentes.
Estos enfoques diferentes suelen intentar que la araña funcione más rápido, que permita a los usuarios realizar búsquedas más eficientes, o ambas cosas. Por ejemplo, algunas arañas llevan la cuenta de las palabras del título, los subtítulos y los enlaces, junto con las 100 palabras más utilizadas en la página y cada palabra de las primeras 20 líneas de texto. Se dice que Lycos utiliza este enfoque para arañar la Web.
Otros sistemas, como AltaVista, van en la otra dirección, indexando cada palabra de una página, incluyendo «a», «an», «the» y otras palabras «insignificantes». El impulso a la exhaustividad en este enfoque es igualado por otros sistemas en la atención prestada a la parte no vista de la página web, las metaetiquetas. Más información sobre las metaetiquetas en la siguiente página.
Deja una respuesta