
Robots.txt configurado e o Google continua rastreando o que eu não quero

O arquivo robots.txt é um componente essencial na gestão de sites, projetado para orientar os robôs de busca sobre quais partes do site podem ou não ser acessadas.
O arquivo robots.txt deve ser colocado na pasta raiz do site. Para acessá-lo, basta digitar a URL do site seguida de /robots.txt
. Por exemplo, para um site com o domínio www.exemplo.com
, o arquivo seria acessível em www.exemplo.com/robots.txt
. Essa localização padrão permite que os robôs de busca o encontrem facilmente antes de iniciar o rastreamento das demais páginas do site.
Conteúdo
- O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?
- Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?
- E como posso ter certeza de que meu arquivo robots.txt está correto?
- O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?
O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?
O Google pode, em algumas situações, ignorar as regras definidas no arquivo robots.txt
e acessar páginas que você bloqueou. Isso ocorre principalmente devido à natureza do funcionamento dos mecanismos de busca e como eles interpretam as informações disponíveis.
Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?
Existem alguns motivos pelos quais você pode ter essa impressão:
- É possível que você tenha cometido um erro ao criar o arquivo, como não usar curingas corretamente, não iniciar as declarações com "/", não entender a ordem de priorização das regras ou não replicar diretivas em todos os grupos de User-agent.
- Se a URL já foi indexada no passado, o Google ainda pode exibi-la nos resultados de pesquisa, mesmo que esteja bloqueada no robots.txt. Isso pode levar algum tempo para ser corrigido.
- Se outras páginas apontarem para a URL bloqueada, o Google pode indexá-la sem conteúdo, mesmo sem rastreá-la.
- O Google armazena em cache o conteúdo do robots.txt por 24 horas. Se você fizer alterações no arquivo, pode levar até um dia para que o Google as reconheça.
- Se o servidor retornar um erro ao Google quando ele solicitar o robots.txt, o Google pode interpretar isso como permissão para rastrear todas as páginas.
E como posso ter certeza de que meu arquivo robots.txt está correto?
Utilize a ferramenta "Teste de robots.txt" no Google Search Console para verificar se o arquivo está configurado corretamente e se o Google o está interpretando como esperado.
Por que sites não otimizados podem ter uma boa classificação nos mecanismos de pesquisa?A diretiva Disallow no arquivo robots.txt é utilizada para instruir os mecanismos de busca a não rastrearem determinadas páginas ou diretórios de um site. Essa diretiva é fundamental para controlar o acesso dos robôs de busca, permitindo que os administradores do site especifiquem quais partes do conteúdo não devem ser indexadas.
Um exemplo de bloqueio:
User-agent: *
Disallow: /admin/
Disallow: /privado/
Quantos backlinks eu posso criar para meu site no mês?
Neste exemplo, todos os bots de busca são instruídos a não rastrear as páginas localizadas nos diretórios /admin/
e /privado/
. Isso é útil para proteger áreas que contêm informações sensíveis ou que não são relevantes para os usuários em geral.
Como posso evitar que o Google acesse URLs durante uma migração ou mudança no site?
Após qualquer alteração no site ou no robots.txt, utilize a ferramenta "Teste de robots.txt" no Google Search Console e solicite que o Google recarregue o arquivo. Isso garante que o Google esteja ciente das alterações imediatamente.
O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?
Dependendo do código de erro, o Google pode interpretar isso como permissão para rastrear todas as páginas do seu site. É crucial garantir que o servidor esteja funcionando corretamente e que o robots.txt esteja acessível.
Quando um servidor retorna um código de erro 40x ao Google durante a solicitação do arquivo robots.txt, isso pode ter implicações significativas para o rastreamento e indexação do site. Aqui estão os principais pontos a considerar:
- Se o Google não consegue acessar o arquivo robots.txt devido a um erro 40x (como 404 - Não Encontrado), ele não receberá as instruções sobre quais partes do site devem ser bloqueadas ou permitidas para rastreamento. Isso pode levar o Google a rastrear todas as páginas do site, incluindo aquelas que o administrador desejava manter fora dos resultados de busca.
- Sem acesso ao arquivo robots.txt, o Google pode indexar URLs que deveriam ser bloqueadas. Isso é problemático, especialmente se essas páginas contêm informações sensíveis ou conteúdo que não deve ser exibido nos resultados de pesquisa. Páginas que deveriam ser restritas podem aparecer nos resultados de busca, prejudicando a privacidade e a segurança do site.
- A ausência do arquivo robots.txt ou erros ao acessá-lo podem fazer com que o Google interprete o site como potencialmente problemático, levando a uma diminuição na confiança em seu conteúdo. Isso pode resultar em penalizações nos rankings de busca, afetando negativamente o tráfego orgânico.
Mais informações acesse: Como o Google interpreta a especificação de robots.txt
Por que sites não otimizados podem ter uma boa classificação nos mecanismos de pesquisa?Quantos backlinks eu posso criar para meu site no mês?
SEMrush vs Google Search Console - Qual é a melhor ferramenta?
E qual é a forma correta de usar?
Já encontrei alguns bem diferentes, mas cada um precisa adaptar para a sua necessidade e realidade. O mais importante é saber e identificar o que é ou não para bloquear. Vou deixar um exemplo:
# global
User-Agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /tags/
Disallow: /uncategorized/
Disallow: */trackback
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */disclaimer/*
Disallow: *?attachment_id=
Disallow: /privacy-policy
Disallow: /*/feed/
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Mediapartners-Google
Allow: /
User-agent: AdsBot-Google
Allow: /
User-agent: AdsBot-Google-Mobile
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Msnbot
Allow: /
User-agent: msnbot-media
Allow: /wp-content/uploads/
User-agent: Applebot
Allow: /
User-agent: Yandex
Allow: /
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: Slurp
Allow: /
User-agent: DuckDuckBot
Allow: /
User-agent: Qwantify
Allow: /
# qualquer endereco que contenha, [busca interna] ?
Disallow: /*/*?s=*
#Sitemap
Sitemap: seusite.com.br/sitemap_index.xml
Espero que tenha curtido o conteúdo sobre:
Robots.txt configurado e o Google continua rastreando o que eu não quero
Em SEO temos diversos artigos sobre este tema. Recomendo :)
Deixe um comentário