Robots.txt configurado e o Google continua rastreando o que eu não quero

Entenda como funciona o robots.txt configurado e o Google continua rastreando sem a minha permissão.

O arquivo robots.txt é um componente essencial na gestão de sites, projetado para orientar os robôs de busca sobre quais partes do site podem ou não ser acessadas.

O arquivo robots.txt deve ser colocado na pasta raiz do site. Para acessá-lo, basta digitar a URL do site seguida de /robots.txt. Por exemplo, para um site com o domínio www.exemplo.com, o arquivo seria acessível em www.exemplo.com/robots.txt. Essa localização padrão permite que os robôs de busca o encontrem facilmente antes de iniciar o rastreamento das demais páginas do site.

Conteúdo

O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?
Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?
E como posso ter certeza de que meu arquivo robots.txt está correto?
1. Como posso evitar que o Google acesse URLs durante uma migração ou mudança no site?
O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?
1. E qual é a forma correta de usar?

O Google pode ignorar o meu arquivo robots.txt e acessar páginas bloqueadas?

O Google pode, em algumas situações, ignorar as regras definidas no arquivo robots.txt e acessar páginas que você bloqueou. Isso ocorre principalmente devido à natureza do funcionamento dos mecanismos de busca e como eles interpretam as informações disponíveis.

Por que vejo o Google acessando páginas que fiz bloqueio no robots.txt?

Existem alguns motivos pelos quais você pode ter essa impressão:

É possível que você tenha cometido um erro ao criar o arquivo, como não usar curingas corretamente, não iniciar as declarações com "/", não entender a ordem de priorização das regras ou não replicar diretivas em todos os grupos de User-agent.
Se a URL já foi indexada no passado, o Google ainda pode exibi-la nos resultados de pesquisa, mesmo que esteja bloqueada no robots.txt. Isso pode levar algum tempo para ser corrigido.
Se outras páginas apontarem para a URL bloqueada, o Google pode indexá-la sem conteúdo, mesmo sem rastreá-la.
O Google armazena em cache o conteúdo do robots.txt por 24 horas. Se você fizer alterações no arquivo, pode levar até um dia para que o Google as reconheça.
Se o servidor retornar um erro ao Google quando ele solicitar o robots.txt, o Google pode interpretar isso como permissão para rastrear todas as páginas.

E como posso ter certeza de que meu arquivo robots.txt está correto?

Utilize a ferramenta "Teste de robots.txt" no Google Search Console para verificar se o arquivo está configurado corretamente e se o Google o está interpretando como esperado.

A diretiva Disallow no arquivo robots.txt é utilizada para instruir os mecanismos de busca a não rastrearem determinadas páginas ou diretórios de um site. Essa diretiva é fundamental para controlar o acesso dos robôs de busca, permitindo que os administradores do site especifiquem quais partes do conteúdo não devem ser indexadas.

Um exemplo de bloqueio:

User-agent: *

Disallow: /admin/

Disallow: /privado/

Neste exemplo, todos os bots de busca são instruídos a não rastrear as páginas localizadas nos diretórios /admin/ e /privado/. Isso é útil para proteger áreas que contêm informações sensíveis ou que não são relevantes para os usuários em geral.

Como posso evitar que o Google acesse URLs durante uma migração ou mudança no site?

Após qualquer alteração no site ou no robots.txt, utilize a ferramenta "Teste de robots.txt" no Google Search Console e solicite que o Google recarregue o arquivo. Isso garante que o Google esteja ciente das alterações imediatamente.

O que acontece se o meu servidor retornar um erro ao Google quando ele solicitar o robots.txt?

Dependendo do código de erro, o Google pode interpretar isso como permissão para rastrear todas as páginas do seu site. É crucial garantir que o servidor esteja funcionando corretamente e que o robots.txt esteja acessível.

Quando um servidor retorna um código de erro 40x ao Google durante a solicitação do arquivo robots.txt, isso pode ter implicações significativas para o rastreamento e indexação do site. Aqui estão os principais pontos a considerar:

Se o Google não consegue acessar o arquivo robots.txt devido a um erro 40x (como 404 - Não Encontrado), ele não receberá as instruções sobre quais partes do site devem ser bloqueadas ou permitidas para rastreamento. Isso pode levar o Google a rastrear todas as páginas do site, incluindo aquelas que o administrador desejava manter fora dos resultados de busca.
Sem acesso ao arquivo robots.txt, o Google pode indexar URLs que deveriam ser bloqueadas. Isso é problemático, especialmente se essas páginas contêm informações sensíveis ou conteúdo que não deve ser exibido nos resultados de pesquisa. Páginas que deveriam ser restritas podem aparecer nos resultados de busca, prejudicando a privacidade e a segurança do site.
A ausência do arquivo robots.txt ou erros ao acessá-lo podem fazer com que o Google interprete o site como potencialmente problemático, levando a uma diminuição na confiança em seu conteúdo. Isso pode resultar em penalizações nos rankings de busca, afetando negativamente o tráfego orgânico.

Mais informações acesse: Como o Google interpreta a especificação de robots.txt

E qual é a forma correta de usar?

Já encontrei alguns bem diferentes, mas cada um precisa adaptar para a sua necessidade e realidade. O mais importante é saber e identificar o que é ou não para bloquear. Vou deixar um exemplo:

# global
User-Agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /tags/
Disallow: /uncategorized/
Disallow: */trackback
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */disclaimer/*
Disallow: *?attachment_id=
Disallow: /privacy-policy
Disallow: /*/feed/

User-agent: Googlebot
Allow: /

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Mediapartners-Google
Allow: /

User-agent: AdsBot-Google
Allow: /

User-agent: AdsBot-Google-Mobile
Allow: /

User-agent: Bingbot
Allow: /

User-agent: Msnbot
Allow: /

User-agent: msnbot-media
Allow: /wp-content/uploads/

User-agent: Applebot
Allow: /

User-agent: Yandex
Allow: /

User-agent: YandexImages
Allow: /wp-content/uploads/

User-agent: Slurp
Allow: /

User-agent: DuckDuckBot
Allow: /

User-agent: Qwantify
Allow: /

# qualquer endereco que contenha, [busca interna] ?
Disallow: /*/*?s=*

#Sitemap

Sitemap: seusite.com.br/sitemap_index.xml

Espero que tenha curtido o conteúdo sobre:
Robots.txt configurado e o Google continua rastreando o que eu não quero
Em SEO temos diversos artigos sobre este tema. Recomendo :)

Claudio Gomes

Criei o Blog Marketing Online para falar sobre negócios online e offline. Trabalho com internet marketing e negócios online alguns anos e consegui acumular muitas informações e formas de ganhar dinheiro online.