GPTBot provavelmente não é o que você pensa.

Principais conclusões

  • O GPTBot da OpenAI é um rastreador da web projetado para coletar dados de sites públicos, que são então usados ​​para treinar e melhorar modelos de IA como GPT-4 e ChatGPT.
  • Alguns dos maiores sites da internet estão bloqueando o GPTBot porque ele acessa e usa conteúdo protegido por direitos autorais sem permissão ou compensação aos criadores.
  • Embora os sites possam usar ferramentas como o robots.txt para tentar bloquear o GPTBot, não há garantias de que a OpenAI irá cumprir, dando-lhes controle sobre o acesso a dados protegidos por direitos autorais.

Em agosto de 2023, a OpenAI, a potência da IA ​​responsável pelo desenvolvimento do ChatGPT, anunciou o GPTBot, um rastreador da web projetado para percorrer a web e coletar dados.

Não muito depois desse anúncio, alguns dos maiores sites da Internet bloquearam o acesso do bot ao seu site. Mas por que? O que é o GPTBot da OpenAI? Por que os grandes sites têm medo disso e por que estão tentando bloqueá-lo?

instagram viewer

O que é o GPTBot da OpenAI?

GPTBot é um rastreador da web criado pela OpenAI para pesquisar na Internet e coletar informações para os objetivos de desenvolvimento de IA da OpenAI. Ele está programado para rastrear sites públicos e enviar os dados de volta aos servidores da OpenAI. A OpenAI utiliza então estes dados para treinar e melhorar os seus modelos de IA, com o objetivo de construir sistemas de inteligência artificial cada vez mais avançados. Para construir modelos sofisticados de IA como o GPT-4 ou seus produtos derivados como o ChatGPT, os rastreadores da web são quase indispensáveis.

Treinar um modelo de IA requer uma enorme quantidade de dados, e uma das maneiras mais eficazes de coletar esses dados é implantar ferramentas como web crawlers. Os rastreadores podem navegar sistematicamente na web, seguir links para indexar grandes volumes de páginas da web e extrair dados importantes como texto, imagens e metadados que correspondam a um padrão predefinido.

Esses dados podem então ser estruturados e inseridos em modelos de IA para treinar suas habilidades de processamento de linguagem natural ou de geração de imagens ou treiná-los para outras tarefas de IA. Em outras palavras, os rastreadores da web reúnem os dados que possibilitam que ferramentas como ChatGPT ou DALL-E façam o que fazem.

Os rastreadores da Web não são um conceito novo. Provavelmente existem milhões deles rastreando os bilhões de sites disponíveis na Internet hoje. E eles existem pelo menos desde o início dos anos 90. GPTBot é apenas um desses rastreadores de propriedade da OpenAI. Então, o que está causando a controvérsia em torno desse rastreador da web em particular?

Por que os grandes sites de tecnologia estão bloqueando o GPTBot?

De acordo com Insider de negócios, alguns dos maiores sites da Internet estão bloqueando ativamente o rastreador da OpenAI em seus sites. Então, se o objetivo final do GPTBot é avançar no desenvolvimento da IA, por que alguns dos maiores sites da Internet, alguns dos quais se beneficiaram de uma forma ou de outra da IA, estão contra ele?

Bem, o problema é o seguinte. Desde o ressurgimento das tecnologias generativas de IA em 2022, tem havido numerosos debates sobre o direito das empresas de IA de utilizar, quase sem limites, dados provenientes da Internet, uma parte significativa dos quais está legalmente protegida por direito autoral. Não existem leis claras que regulem a forma como estas empresas recolhem e utilizam dados para seu próprio benefício.

Então, basicamente, rastreadores como o GPTBot rastreiam a web, capturam o trabalho criativo das pessoas na forma de texto, imagens ou outras formas de mídia e usá-la para fins comerciais sem obter qualquer permissão, licenciamento ou fornecer compensação ao original criadores.

É um oeste selvagem lá fora, e as empresas de IA estão agarrando tudo o que podem. Grandes sites como Quora, CNN, New York Times, Business Insider e Amazon não estão muito satisfeitos com o fato de seus conteúdo protegido por direitos autorais está sendo coletado por esses rastreadores, para que a OpenAI possa obter benefícios financeiros com isso em seu próprio ritmo. despesa.

É por isso que esses sites estão implantando o “robots.txt”, um método antigo para bloquear rastreadores da web. De acordo com OpenAI, o GPTBot obedecerá às instruções para rastrear ou evitar o rastreamento de sites com base nas regras incorporadas no robots.txt, um pequeno arquivo de texto que informa aos rastreadores da web como se comportar em um site. Se você tem seu próprio site e gostaria de impedir que o GPTBot obtivesse seus dados, veja como você pode impedir que os rastreadores da OpenAI rastreiem seu site.

Os sites podem realmente parar o GPTBot?

Embora rastreadores como o GPTBot sejam indispensáveis ​​para coletar as enormes quantidades de dados necessárias para treinar sistemas avançados de IA, existem preocupações válidas em torno de direitos autorais e uso justo que não podem ser ignorado.

Claro, existem ferramentas simples como o robots.txt que podem ser usadas para se proteger contra isso, mas se o GPTBot obedece às instruções deste arquivo fica inteiramente a critério da OpenAI. Não há garantias de que o farão e não existe uma maneira imediata e infalível de saber se o fizeram. Na luta para manter o GPTBot longe de dados protegidos por direitos autorais, a OpenAI detém os ases, pelo menos por enquanto.