A busca mudou. E o que chamamos por décadas de “estar na primeira página do Google”...
Se o Google não consegue rastrear ou entender a estrutura do seu site, nenhuma estratégia de SEO vai funcionar. E dois arquivos silenciosos são responsáveis por boa parte desse trabalho: o robots.txt e o sitemap XML.
Configurados corretamente, eles funcionam como um mapa e uma portaria do seu site, orientando os crawlers do Google sobre onde ir, o que indexar e o que ignorar. Configurados errado, podem bloquear páginas inteiras sem que você perceba.
Neste guia vocês vão aprender o que são esses dois arquivos, como configurar cada um, quais são os erros mais comuns e como verificar se está tudo funcionando corretamente.
O robots.txt é um arquivo de texto simples localizado na raiz do seu domínio (ex: seusite.com.br/robots.txt). Ele informa aos robôs de busca quais partes do site podem ou não ser rastreadas.
É o primeiro arquivo que o Googlebot lê ao visitar um site. Por isso, qualquer erro nele tem impacto imediato na capacidade do Google de encontrar suas páginas.
O robots.txt controla rastreamento, não indexação. Esse é um ponto que muita gente confunde. Bloquear uma URL no robots.txt impede o crawler de acessá-la, mas não garante que ela saia do índice, especialmente se outros sites tiverem links apontando para ela.
User-agent: *
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /carrinho/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seusite.com.br/sitemap.xml
Cada bloco é formado por:
Vocês podem criar regras diferentes para robôs específicos. Isso é especialmente útil para ferramentas de GEO, como GPTBot (OpenAI) e ClaudeBot (Anthropic), que rastreiam seu conteúdo para alimentar respostas de IA:
User-agent: Googlebot
Disallow:
User-agent: GPTBot
Allow: /blog/
User-agent: *
Disallow: /admin/
Quer entender mais sobre como os robôs de IA rastreiam seu site e como isso impacta sua visibilidade em ferramentas como ChatGPT, Gemini e Perplexity? Leia nosso guia sobre Como Saber se Sua Marca é Citada pelo ChatGPT, Gemini e Perplexity.
O sitemap XML é um arquivo que lista todas as URLs importantes do seu site, ajudando os mecanismos de busca a descobrir, rastrear e indexar seu conteúdo com mais eficiência.
Ele não garante indexação, mas acelera o processo e dá ao Google sinais importantes como:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://seusite.com.br/</loc>
<lastmod>2026-04-01</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://seusite.com.br/blog/auditoria-de-seo/</loc>
<lastmod>2026-04-06</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Sitemap de páginas (page sitemap): lista as URLs principais do site.
Sitemap de imagens: inclui imagens que vocês querem que o Google indexe para busca de imagens.
Sitemap de vídeos: para conteúdo em vídeo hospedado no próprio site.
Sitemap de notícias: para portais de notícias registrados no Google News.
Sitemap índice: quando o site tem mais de 50.000 URLs, é necessário criar um arquivo principal que referencia outros sitemaps:
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://seusite.com.br/sitemap-posts.xml</loc>
</sitemap>
<sitemap>
<loc>https://seusite.com.br/sitemap-pages.xml</loc>
</sitemap>
</sitemapindex>
O RankMath gera sitemaps automaticamente. Para verificar e configurar:
seusite.com.br/sitemap_index.xmlErro 1: bloquear páginas importantes no robots.txt
O erro mais grave e mais comum. Muitos sites bloqueiam pastas inteiras por descuido, impedindo o Google de rastrear o conteúdo principal.
Como identificar: acesse seusite.com.br/robots.txt e revise cada linha de Disallow. Teste URLs específicas usando a ferramenta de teste de robots.txt no Google Search Console.
Erro 2: incluir páginas noindex no sitemap
O sitemap deve conter apenas URLs que vocês querem que o Google indexe. Incluir páginas com a tag noindex cria um conflito de sinais que confunde o crawler.
Como corrigir: configure o RankMath ou seu plugin de SEO para excluir automaticamente do sitemap qualquer URL marcada como noindex.
Erro 3: não enviar o sitemap ao Google Search Console
Ter o sitemap não basta. Vocês precisam submetê-lo ao Google Search Console para que o Google processe o arquivo ativamente.
Como enviar:
Ainda não configuraram o Google Search Console? Temos um guia completo sobre como configurar, verificar e interpretar os dados do GSC.
Erro 4: sitemap desatualizado
O sitemap deve refletir o estado atual do site. Se vocês publicam novos posts mas o sitemap não é regenerado, o Google pode demorar mais para descobrir o novo conteúdo.
Com o RankMath ou Yoast, o sitemap é atualizado automaticamente a cada publicação. Em sites customizados, é necessário configurar a regeneração automática ou criar uma rotina de atualização.
Erro 5: URLs no sitemap retornando erro 404 ou redirecionamento
Cada URL no sitemap deve retornar status 200. URLs que redirecionam ou retornam 404 desperdiçam crawl budget e enviam sinais negativos.
Como verificar: usem o Screaming Frog ou o relatório de Sitemaps no Google Search Console para identificar URLs com problema.
Ferramentas gratuitas
Google Search Console: é a fonte mais confiável. Acessem:
Teste direto no navegador:
Ferramenta de inspeção de URL no GSC: Para qualquer URL específica, a ferramenta de inspeção mostra se ela foi descoberta via sitemap, se está indexada e se o robots.txt permite rastreamento.
Ficou em dúvida se sua estratégia de rastreamento e indexação está adequada? Uma Auditoria de SEO completa pode identificar esses e outros problemas técnicos que estão travando seu ranqueamento.
Com a ascensão das respostas geradas por IA, o robots.txt ganhou uma nova camada de importância. Hoje, robôs como GPTBot (OpenAI), ClaudeBot (Anthropic) e GoogleBot-Extended rastreiam seu conteúdo para alimentar modelos de linguagem.
Se vocês querem que sua marca apareça nas respostas do ChatGPT, Gemini ou Perplexity, precisam garantir que esses robôs não estejam bloqueados no robots.txt.
Por outro lado, se preferem restringir o uso do seu conteúdo para treinamento de IA, podem bloquear seletivamente:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Essa é uma decisão estratégica que envolve equilibrar visibilidade em IA versus controle do conteúdo. Não existe resposta certa para todos os casos.
Para entender melhor como funciona a otimização para IA e o que é GEO, leiam nosso guia completo sobre Generative Engine Optimization e também o artigo sobre Tendências de IA para SEO em 2026.
O robots.txt impede que a página seja indexada? Não diretamente. O robots.txt impede o rastreamento da URL, mas não garante que ela saia do índice. Para remover uma página do índice, use a tag noindex ou a ferramenta de remoção de URLs no Google Search Console.
Qual é a diferença entre Disallow e noindex? Disallow no robots.txt impede o crawler de acessar a página. noindex é uma instrução dentro da página que diz ao Google para não indexá-la. O ideal para páginas que não devem aparecer no Google é usar as duas juntas, mas nunca bloquear no robots.txt uma página que tem noindex, pois o Google não conseguirá ler a instrução noindex se não puder acessar a página.
Com que frequência devo atualizar o sitemap? Sempre que houver mudanças significativas no site: novos posts publicados, páginas removidas, URLs alteradas. Plugins como RankMath fazem isso automaticamente.
O sitemap melhora o ranqueamento? Não diretamente. O sitemap ajuda o Google a descobrir e indexar as páginas mais rápido, mas não é um fator de ranqueamento por si só. O que ranqueia é a qualidade do conteúdo e a autoridade do domínio.
Posso ter mais de um sitemap? Sim. Quando o site tem muitas URLs, o recomendado é usar um sitemap índice que referencia outros sitemaps separados por tipo de conteúdo (posts, páginas, imagens, etc.).
Preciso de robots.txt se meu site é pequeno? Sim. Mesmo sites pequenos se beneficiam de um robots.txt bem configurado para evitar que o Google desperdice crawl budget em páginas administrativas ou duplicadas.
O robots.txt e o sitemap XML são a base da rastreabilidade de qualquer site. Erros nesses dois arquivos podem comprometer meses de trabalho em SEO sem que vocês percebam.
A boa notícia é que, com as ferramentas certas e uma configuração correta, esses arquivos trabalham por vocês automaticamente.
Se quiserem identificar outros problemas técnicos que podem estar travando o ranqueamento do seu site, conheçam a ferramenta SEONextbr e façam uma auditoria completa em minutos, sem precisar de conhecimento técnico avançado.