Temporização de rastreamento do Google
Google rastreia a Web em diferentes profundidades e em mais de um cronograma. O assim chamado crawl profunda ocorre aproximadamente uma vez por mês. Este extenso de reconhecimento de conteúdo da Web exige mais do que uma semana para ser concluído e um comprimento não revelado de tempo após a conclusão para construir os resultados para o índice. Por esta razão, pode levar até seis semanas para uma nova página para aparecer no Google. novos sites de marca em novos endereços de domínio que nunca foram rastreados antes pode até não ser indexada em primeiro lugar.
Se o Google se baseou inteiramente no rastreamento profundo, o seu índice se tornaria rapidamente ultrapassada na Web mudando rapidamente. Para manter-se atualizado, o Google lança vários suplementar rastreamentos frescos que roçar a Web mais superficialmente e frequência do que o rastreamento de profundidade. Estas aranhas complementares (programas de software automatizado que viajam de link em link de um Web, recolher o conteúdo de páginas on-line) não atualizar o índice inteiro, mas refrescar-atualizando o conteúdo de alguns sites. O Google não divulgar seus horários ou alvos recém-rastejando, mas Webmasters pode obter uma indicação de frequência do rastreamento através de observação afiada.
Google não tem obrigação de tocar em qualquer URL específica com um rastreamento fresco. Sites podem aumentar sua chance de ser rastreado, muitas vezes, no entanto, alterando seu conteúdo e adicionar páginas com freqüência. Lembre-se o aspecto superficialidade do crawl- fresco Google pode mergulhar na home page de seu site (a primeira página ou página de índice), mas não mergulhar em uma exploração profunda das páginas internas do site. (Você pode, por exemplo, perceber que uma nova página de índice do seu site aparece no Google dentro de um dia de suas atualizações, enquanto uma nova página interna adicionados ao mesmo tempo pode estar faltando.) Mas aranha do Google pode comparar os resultados anteriores de rastreamento com o rastreamento atual, e se ele aprende a partir da página de navegação superior que o novo conteúdo é adicionado regularmente, ele pode começar a rastrear o site inteiro durante as suas visitas frequentes.
O rastreamento profundo é mais automático e sem pensar profundo do que o rastreamento fresco. As chances são boas que, em um ciclo de rastreamento profundo, qualquer URL que já estão no índice principal serão reavaliadas para baixo a sua última página. No entanto, o Google não incluem necessariamente todas as páginas de um site. Como de costume, as razões e fórmulas envolvidas na exclusão de certas páginas não são divulgados. O principal fato a ser lembrado é que o Google se aplica considerações PageRank para cada página, e não apenas aos domínios e páginas de topo. Se uma página específica é importante para você e não aparece nos resultados de pesquisa do Google, sua tarefa é aplicar todas as redes e otimização tática que você pode imaginar para essa página. Você também pode enviar manualmente essa página específica para o Google.
Os termos crawl profunda e crawl fresco são amplamente utilizados na comunidade marketing on-line para distinguir entre o spidering completa da Web que o Google lança aproximadamente mensal e intermediário vários rastreamentos executar a critério do Google. O próprio Google reconhece ambos os níveis de atividade de aranha, mas é segredo sobre horários exatos, profundidades de rastreamento e fórmulas através da qual a empresa escolhe alvos de rastreamento. Em grande medida, os alvos são determinados por processos automáticos construídas na programação da aranha, mas os seres humanos no Google também dirigir a aranha para destinos específicos para várias razões.
tecnicamente, o índice do Google permanece estático entre os rastreamentos. Google combina palavras-chave contra o índice, e não contra conteúdo da Web ao vivo, então todas as páginas colocadas on-line (ou modificados) entre visitas de aranha do Google continuam a ser excluídos (ou fora da data in) a resultados até que eles são rastreados novamente. Mas dois fatores trabalham contra o índice permanecendo inalteradas por muito tempo. Em primeiro lugar, a frequência de rastreamentos frescos mantém o índice de evolução em um estado que Google observadores chamam Everflux. Em segundo lugar, é necessário algum tempo para colocar os resultados de rastreamento para o índice em milhares de servidores do Google. A arfante irregular e agitação do índice que resulta de esses dois fatores é chamada de Google dança.