Robots.txt configurado e o Google continua rastreando o que eu não quero
O arquivo robots.txt é um componente essencial na gestão de sites, projetado para orientar os robôs de busca sobre quais partes do site podem ou não ser acessadas.
O arquivo robots.txt deve ser colocado na pasta raiz do site. Para acessá-lo, basta digitar a URL do site seguida de /robots.txt
. Por exemplo, para um site com o domínio www.exemplo.com
, o arquivo seria acessível em www.exemplo.com/robots.txt
. Essa localização padrão permite que os robôs de busca o encontrem facilmente antes de iniciar o rastreamento das demais páginas do site.
- O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?
- Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?
- E como posso ter certeza de que meu arquivo robots.txt está correto?
- O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?
O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?
O Google pode, em algumas situações, ignorar as regras definidas no arquivo robots.txt
e acessar páginas que você bloqueou. Isso ocorre principalmente devido à natureza do funcionamento dos mecanismos de busca e como eles interpretam as informações disponíveis.
Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?
Existem alguns motivos pelos quais você pode ter essa impressão:
- É possível que você tenha cometido um erro ao criar o arquivo, como não usar curingas corretamente, não iniciar as declarações com "/", não entender a ordem de priorização das regras ou não replicar diretivas em todos os grupos de User-agent.
- Se a URL já foi indexada no passado, o Google ainda pode exibi-la nos resultados de pesquisa, mesmo que esteja bloqueada no robots.txt. Isso pode levar algum tempo para ser corrigido.
- Se outras páginas apontarem para a URL bloqueada, o Google pode indexá-la sem conteúdo, mesmo sem rastreá-la.
- O Google armazena em cache o conteúdo do robots.txt por 24 horas. Se você fizer alterações no arquivo, pode levar até um dia para que o Google as reconheça.
- Se o servidor retornar um erro ao Google quando ele solicitar o robots.txt, o Google pode interpretar isso como permissão para rastrear todas as páginas.
E como posso ter certeza de que meu arquivo robots.txt está correto?
Utilize a ferramenta "Teste de robots.txt" no Google Search Console para verificar se o arquivo está configurado corretamente e se o Google o está interpretando como esperado.
A diretiva Disallow no arquivo robots.txt é utilizada para instruir os mecanismos de busca a não rastrearem determinadas páginas ou diretórios de um site. Essa diretiva é fundamental para controlar o acesso dos robôs de busca, permitindo que os administradores do site especifiquem quais partes do conteúdo não devem ser indexadas.
Um exemplo de bloqueio:
User-agent: *
Disallow: /admin/
Disallow: /privado/
Neste exemplo, todos os bots de busca são instruídos a não rastrear as páginas localizadas nos diretórios /admin/
e /privado/
. Isso é útil para proteger áreas que contêm informações sensíveis ou que não são relevantes para os usuários em geral.
Como posso evitar que o Google acesse URLs durante uma migração ou mudança no site?
Após qualquer alteração no site ou no robots.txt, utilize a ferramenta "Teste de robots.txt" no Google Search Console e solicite que o Google recarregue o arquivo. Isso garante que o Google esteja ciente das alterações imediatamente.
O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?
Dependendo do código de erro, o Google pode interpretar isso como permissão para rastrear todas as páginas do seu site. É crucial garantir que o servidor esteja funcionando corretamente e que o robots.txt esteja acessível.
Quando um servidor retorna um código de erro 40x ao Google durante a solicitação do arquivo robots.txt, isso pode ter implicações significativas para o rastreamento e indexação do site. Aqui estão os principais pontos a considerar:
- Se o Google não consegue acessar o arquivo robots.txt devido a um erro 40x (como 404 - Não Encontrado), ele não receberá as instruções sobre quais partes do site devem ser bloqueadas ou permitidas para rastreamento. Isso pode levar o Google a rastrear todas as páginas do site, incluindo aquelas que o administrador desejava manter fora dos resultados de busca.
- Sem acesso ao arquivo robots.txt, o Google pode indexar URLs que deveriam ser bloqueadas. Isso é problemático, especialmente se essas páginas contêm informações sensíveis ou conteúdo que não deve ser exibido nos resultados de pesquisa. Páginas que deveriam ser restritas podem aparecer nos resultados de busca, prejudicando a privacidade e a segurança do site.
- A ausência do arquivo robots.txt ou erros ao acessá-lo podem fazer com que o Google interprete o site como potencialmente problemático, levando a uma diminuição na confiança em seu conteúdo. Isso pode resultar em penalizações nos rankings de busca, afetando negativamente o tráfego orgânico.
Mais informações acesse: Como o Google interpreta a especificação de robots.txt
E qual é a forma correta de usar?
Já encontrei alguns bem diferentes, mas cada um precisa adaptar para a sua necessidade e realidade. O mais importante é saber e identificar o que é ou não para bloquear. Vou deixar um exemplo:
# global
User-Agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /tags/
Disallow: /uncategorized/
Disallow: */trackback
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */disclaimer/*
Disallow: *?attachment_id=
Disallow: /privacy-policy
Disallow: /*/feed/
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Mediapartners-Google
Allow: /
User-agent: AdsBot-Google
Allow: /
User-agent: AdsBot-Google-Mobile
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Msnbot
Allow: /
User-agent: msnbot-media
Allow: /wp-content/uploads/
User-agent: Applebot
Allow: /
User-agent: Yandex
Allow: /
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: Slurp
Allow: /
User-agent: DuckDuckBot
Allow: /
User-agent: Qwantify
Allow: /
# qualquer endereco que contenha, [busca interna] ?
Disallow: /*/*?s=*
#Sitemap
Sitemap: seusite.com.br/sitemap_index.xml
Espero que tenha curtido o conteúdo sobre:
Robots.txt configurado e o Google continua rastreando o que eu não quero
Em SEO temos diversos artigos sobre este tema. Recomendo :)
Deixe um comentário