Como funcionam os motores de busca da Internet
On Novembro 12, 2021 by adminQuando a maioria das pessoas fala de motores de busca da Internet, eles realmente significam motores de busca da World Wide Web. Antes de a Web se tornar a parte mais visível da Internet, já existiam motores de busca para ajudar as pessoas a encontrar informação na Internet. Programas com nomes como “gopher” e “Archie” mantinham índices de arquivos armazenados em servidores conectados à Internet, e reduziam drasticamente a quantidade de tempo necessária para encontrar programas e documentos. No final dos anos 80, obter sérios valores da Internet significava saber como usar gopher, Archie, Veronica e o resto.
Hoje, a maioria dos usuários da Internet limitam suas pesquisas à Web, por isso vamos limitar este artigo aos motores de busca que se concentram no conteúdo das páginas Web.
Advertisement
Antes que um motor de busca possa dizer onde está um arquivo ou documento, ele deve ser encontrado. Para encontrar informações sobre as centenas de milhões de páginas Web existentes, um motor de busca emprega robôs de software especiais, chamados spiders, para construir listas das palavras encontradas em sites da Web. Quando uma aranha está construindo suas listas, o processo é chamado de Web crawling. (Há algumas desvantagens em chamar parte da Internet de World Wide Web — um grande conjunto de nomes centrados em aracnídeos para ferramentas é uma delas). Para construir e manter uma lista útil de palavras, os spiders de um mecanismo de busca têm que olhar para muitas páginas.
Como qualquer aranha começa suas viagens pela Web? Os pontos de partida usuais são listas de servidores muito usados e páginas muito populares. A aranha começará com um site popular, indexando as palavras nas suas páginas e seguindo todos os links encontrados dentro do site. Desta forma, o sistema spidering rapidamente começa a viajar, espalhando-se pelas partes mais utilizadas da Web.
Google começou como um motor de busca acadêmica. No artigo que descreve como o sistema foi construído, Sergey Brin e Lawrence Page dão um exemplo de como suas aranhas podem trabalhar rapidamente. Eles construíram seu sistema inicial para usar várias aranhas, geralmente três de uma só vez. Cada aranha poderia manter cerca de 300 conexões com páginas da Web abertas de cada vez. Em seu desempenho máximo, usando quatro spiders, seu sistema poderia arrastar mais de 100 páginas por segundo, gerando cerca de 600 kilobytes de dados a cada segundo.
Ceping everything running quickly significou construir um sistema para alimentar as informações necessárias para os spiders. O antigo sistema do Google tinha um servidor dedicado a fornecer URLs para os spiders. Ao invés de depender de um provedor de Internet para o servidor de nome de domínio (DNS) que traduz o nome de um servidor em um endereço, o Google tinha seu próprio DNS, para manter os atrasos ao mínimo.
Quando o spider do Google olhou para uma página HTML, ele tomou nota de duas coisas:
- As palavras dentro da página
- Onde as palavras foram encontradas
Palavras que ocorrem no título, subtítulos, meta tags e outras posições de importância relativa foram anotadas para consideração especial durante uma pesquisa subseqüente do usuário. A aranha do Google foi construída para indexar cada palavra significativa em uma página, deixando de fora os artigos “a”, “an” e “the”. Outras aranhas têm abordagens diferentes.
Estas abordagens diferentes geralmente tentam fazer a aranha operar mais rapidamente, permitir que os usuários pesquisem de forma mais eficiente, ou ambos. Por exemplo, alguns spiders irão acompanhar as palavras no título, subtítulos e links, juntamente com as 100 palavras mais usadas na página e cada palavra nas primeiras 20 linhas de texto. Diz-se que Lycos usa esta abordagem para spidering na Web.
Outros sistemas, como o AltaVista, vão na outra direção, indexando cada palavra em uma página, incluindo “a”, “an”, “the” e outras palavras “insignificantes”. O empurrão para a completude nesta abordagem é igualado por outros sistemas na atenção dada à parte invisível da página Web, as meta tags. Saiba mais sobre as meta tags na próxima página.
Deixe uma resposta