Preocupado com os chatbots de IA que rastreiam seu site em busca de conteúdo? Felizmente, você pode impedi-los de fazer isso. Veja como.

Do jeito que as coisas estão, os chatbots AI têm uma licença gratuita para raspar seu site e usar seu conteúdo sem sua permissão. Preocupado com o fato de seu conteúdo ser copiado por essas ferramentas?

A boa notícia é que você pode impedir que as ferramentas de IA acessem seu site, mas há algumas ressalvas. Aqui, mostramos como bloquear os bots usando o arquivo robots.txt para o seu site, além dos prós e contras de fazer isso.

Como os chatbots de IA acessam seu conteúdo da Web?

Os chatbots de IA são treinados usando vários conjuntos de dados, alguns dos quais são de código aberto e disponíveis publicamente. Por exemplo, o GPT3 foi treinado usando cinco conjuntos de dados, de acordo com um trabalho de pesquisa publicado pela OpenAI:

  1. Crawl Comum (60% do peso no treino)
  2. WebText2 (peso de 22% no treinamento)
  3. Books1 (peso de 8% no treinamento)
  4. Books2 (8% de peso no treino)
  5. Wikipedia (peso de 3% no treinamento)

Rastreamento Comum inclui petabytes (milhares de TBs) de dados de sites coletados desde 2008, de forma semelhante à forma como o algoritmo de pesquisa do Google rastreia o conteúdo da web. WebText2 é um conjunto de dados criado pela OpenAI, contendo cerca de 45 milhões de páginas da web vinculadas a postagens do Reddit com pelo menos três votos positivos.

Portanto, no caso do ChatGPT, o bot AI não está acessando e rastreando suas páginas da web diretamente - ainda não, de qualquer maneira. Embora o OpenAI anúncio de um navegador da Web hospedado pelo ChatGPT levantou preocupações de que isso poderia estar prestes a mudar.

Enquanto isso, os proprietários de sites devem ficar de olho em outros chatbots de IA, à medida que mais deles chegam ao mercado. Bard é o outro grande nome da área, e muito pouco se sabe sobre os conjuntos de dados sendo usados ​​para treiná-lo. Obviamente, sabemos que os bots de pesquisa do Google estão constantemente rastreando páginas da web, mas isso não significa necessariamente que Bard tenha acesso aos mesmos dados.

Por que alguns proprietários de sites estão preocupados?

A maior preocupação dos proprietários de sites é que bots de IA como ChatGPT, Bard e Bing Chat desvalorizam seu conteúdo. Os bots de IA usam o conteúdo existente para gerar suas respostas, mas também reduzem a necessidade de os usuários acessarem a fonte original. Em vez de os usuários visitarem sites para acessar informações, eles podem simplesmente fazer com que o Google ou o Bing gerem um resumo das informações de que precisam.

Quando se trata de chatbots de IA na pesquisa, a grande preocupação dos proprietários de sites é a perda de tráfego. No caso de Bard, o bot AI raramente inclui citações em suas respostas generativas, informando aos usuários de quais páginas ele obtém suas informações.

Portanto, além de substituir as visitas ao site por respostas de IA, a Bard remove quase todas as chances de o site de origem receber tráfego, mesmo que o usuário queira mais informações. O Bing Chat, por outro lado, geralmente tem links para fontes de informação.

Em outras palavras, a frota atual de ferramentas de IA generativas é usando o trabalho de criadores de conteúdo para substituir sistematicamente a necessidade de criadores de conteúdo. Em última análise, você tem que perguntar que incentivo isso deixa aos proprietários de sites para continuar publicando conteúdo. E, por extensão, o que acontece com os bots de IA quando os sites param de publicar o conteúdo do qual dependem para funcionar?

Como bloquear bots de IA do seu site

Se você não quiser que bots de IA usem seu conteúdo da web, você pode bloqueá-los de acessar seu site usando o robots.txt arquivo. Infelizmente, você deve bloquear cada bot individual e especificá-los pelo nome.

Por exemplo, o bot do Common Crawl é chamado CCBot e você pode bloqueá-lo adicionando o seguinte código ao seu arquivo robots.txt:

Agente do usuário: CCBot
Não permitir: /

Isso impedirá que o Common Crawl rastreie seu site no futuro, mas não removerá nenhum dado já coletado de rastreamentos anteriores.

Se você está preocupado com os novos plug-ins do ChatGPT acessando seu conteúdo da web, o OpenAI já publicou instruções para bloquear seu bot. Nesse caso, o bot do ChatGPT se chama ChatGPT-User e você pode bloqueá-lo adicionando o seguinte código ao seu arquivo robots.txt:

Agente do usuário: ChatGPT-User
Não permitir: /

Bloquear os bots de IA do mecanismo de pesquisa de rastrear seu conteúdo é outro problema. Como o Google é altamente sigiloso sobre os dados de treinamento que usa, é impossível identificar quais bots você precisará bloquear e se eles respeitarão os comandos em seu robots.txt arquivo (muitos rastreadores não).

Quão eficaz é este método?

Bloqueando bots de IA em seu robots.txt file é o método mais eficaz atualmente disponível, mas não é particularmente confiável.

O primeiro problema é que você precisa especificar cada bot que deseja bloquear, mas quem pode acompanhar cada bot de IA que chega ao mercado? A próxima questão é que os comandos em seu robots.txt arquivo são instruções não obrigatórias. Embora Common Crawl, ChatGPT e muitos outros bots respeitem esses comandos, muitos bots não o fazem.

A outra grande ressalva é que você só pode impedir que bots de IA realizem rastreamentos futuros. Você não pode remover dados de rastreamentos anteriores ou enviar solicitações a empresas como a OpenAI para apagar todos os seus dados.

Infelizmente, não há uma maneira simples de impedir que todos os bots de IA acessem seu site, e bloquear manualmente cada bot individual é quase impossível. Mesmo que você acompanhe os bots de IA mais recentes que circulam pela Web, não há garantia de que todos eles seguirão os comandos em seu robots.txt arquivo.

A verdadeira questão aqui é se os resultados valem o esforço, e a resposta curta é (quase certamente) não.

Também existem possíveis desvantagens em bloquear bots de IA do seu site. Acima de tudo, você não poderá coletar dados significativos para provar se ferramentas como o Bard estão beneficiando ou prejudicando sua estratégia de marketing de busca.

Sim, você pode presumir que a falta de citações é prejudicial, mas está apenas supondo se não tiver os dados porque bloqueou o acesso de bots de IA ao seu conteúdo. Foi uma história semelhante quando o Google introduziu pela primeira vez trechos em destaque procurar.

Para consultas relevantes, o Google mostra um trecho do conteúdo das páginas da web na página de resultados, respondendo à pergunta do usuário. Isso significa que os usuários não precisam clicar em um site para obter a resposta que procuram. Isso causou pânico entre os proprietários de sites e especialistas em SEO, que dependem da geração de tráfego a partir de consultas de pesquisa.

No entanto, o tipo de consulta que aciona os snippets em destaque geralmente são pesquisas de baixo valor, como “o que é X” ou “como está o tempo em Nova York”. Qualquer pessoa que queira informações detalhadas ou um boletim meteorológico abrangente ainda vai clicar, e aqueles que não querem nunca foram tão valiosos em primeiro lugar.

Você pode achar que é uma história semelhante com ferramentas de IA generativas, mas precisará dos dados para provar isso.

Não se apresse em nada

Proprietários e editores de sites estão compreensivelmente preocupados com a tecnologia de IA e frustrados com a ideia de bots usando seu conteúdo para gerar respostas instantâneas. No entanto, este não é o momento para se apressar em movimentos contra-ofensivos. A tecnologia de IA é um campo em rápida evolução e as coisas continuarão a evoluir em um ritmo acelerado. Aproveite esta oportunidade para ver como as coisas acontecem e analisar as possíveis ameaças e oportunidades que a IA traz para a mesa.

O sistema atual de depender do trabalho dos criadores de conteúdo para substituí-los não é sustentável. Se empresas como Google e OpenAI mudam sua abordagem ou governos introduzem novos regulamentos, algo tem que acontecer. Ao mesmo tempo, as implicações negativas dos chatbots de IA na criação de conteúdo estão se tornando cada vez mais aparentes, o que os proprietários de sites e criadores de conteúdo podem usar a seu favor.