O robô do mecanismo de pesquisa é responsável por rastrear páginas da web. O programa lê automaticamente os dados de todos os sites e os regista de forma compreensível para o próprio motor de pesquisa, para que posteriormente o sistema apresente os resultados mais adequados ao utilizador.
Funções
Todas as informações indexadas são registradas em um banco de dados comum.
Um robô de busca é um programa que percorre automaticamente as páginas da Internet, solicitando os documentos necessários e recebendo a estrutura dos sites rastreados. O robô seleciona independentemente as páginas a serem digitalizadas. Na maioria dos casos, os sites a serem verificados são selecionados aleatoriamente.
Tipos de bot
Um robô com funcionamento incorreto aumenta significativamente a carga na rede e no servidor, o que pode fazer com que o recurso fique indisponível.
Cada mecanismo de busca possui vários programas chamados robôs. Cada um deles pode realizar uma função específica. Por exemplo, na Yandex, alguns robôs são responsáveis por escanear feeds de notícias RSS, que serão úteis para indexar blogs. Também existem programas que procuram apenas imagens. No entanto, o mais importante é o bot de indexação, que forma a base de qualquer pesquisa. Há também um robô auxiliar rápido projetado para pesquisar atualizações em feeds de notícias e eventos.
Procedimento de digitalização
Outra forma de evitar o rastreamento de conteúdo é criar acesso ao site por meio do painel de registro.
Ao visitar o site, o programa verifica o sistema de arquivos para a presença de arquivos de instrução robots.txt. Se houver um documento, inicia-se a leitura das diretrizes escritas no documento. Robots.txt pode proibir ou, ao contrário, permitir a verificação de certas páginas e arquivos do site.
O processo de digitalização depende do tipo de programa. Às vezes, os robôs lêem apenas os títulos das páginas e alguns parágrafos. Em alguns casos, a digitalização é feita em todo o documento dependendo da marcação HTML, que também pode funcionar como um meio para especificar frases-chave. Alguns programas são especializados em tags ocultas ou metatags.
Adicionando à lista
Cada webmaster pode impedir que o mecanismo de pesquisa rastreie as páginas por meio de robots.txt ou META tag. Além disso, o criador do site pode adicionar manualmente o site à fila de indexação, mas adicioná-lo não significa que o robô rastreará imediatamente a página desejada. Para adicionar um site à fila, os mecanismos de pesquisa também fornecem interfaces especiais. Adicionar um site acelera significativamente o processo de indexação. Além disso, para registro rápido em um mecanismo de pesquisa, sistemas de análise da web, diretórios de sites, etc. podem ser usados.