Modelos de inteligência artificial como ChatGPT e Bard são treinados usando dados criados por humanos. Quanto mais dados eles ingerem, mais inteligentes eles se tornam em imitar a inteligência e a criatividade humanas. Grandes players do setor de IA, como OpenAI e Meta, implantaram grandes modelos de linguagem treinados por meio da extração de textos e livros disponíveis on-line para extrair dados.

Devido à forma como os LLMs são treinados, era inevitável que houvesse um conflito entre a lei de direitos autorais e a inteligência artificial. Agora as galinhas estão voltando para o poleiro, já que Sarah Silverman e outros artistas estão processando OpenAI e Meta por violação de direitos autorais.

Em uma ação coletiva [PDF] arquivado na Califórnia, a comediante Sarah Silverman e outros escritores (Christopher Golden e Richard Kadrey) buscam recuperar danos contra OpenAI e Meta por violação de direitos autorais. O processo alega que OpenAI e Meta extraíram livros protegidos por direitos autorais de sites piratas para treinar seus modelos de IA. Isso é o equivalente a um modelo de IA baixando seus conjuntos de dados de treinamento do Piratebay sem compensar os autores.

instagram viewer

Coincidentemente, um ação coletiva separada [PDF] contra a OpenAI alega que a empresa usou informações privadas não autorizadas para treinar o ChatGPT. O Google também está enfrentando um processo semelhante por supostamente usar dados roubados para treinar o Google Bard. É por isso que você deve crie o hábito de proteger suas informações pessoais, embora o trabalho de publicação e os dados pessoais privados não sejam os mesmos.

Quais são as chances de Sarah Silverman ganhar o processo?

Crédito da imagem: freepik

Silverman e outros artistas afirmam que o ChatGPT pode resumir com precisão seus livros quando solicitado. A denúncia argumenta que isso não seria possível se o modelo de IA não tivesse acesso ao material protegido por direitos autorais. No entanto, se o ChatGPT foi treinado usando bilhões de textos da Internet, provavelmente encontrou artigos, comentários e postagens de mídia social discutindo os livros.

Além disso, a Meta divulgou onde adquiriu os livros que usou para treinar seu modelo de IA – a fonte foi rastreada para um site de torrent de e-books. Da mesma forma, a ação coletiva contra a OpenAI também menciona sites ilegais onde a OpenAI é suspeita de ter obtido os materiais protegidos por direitos autorais, mas a OpenAI ainda não confirmou suas fontes.

Se for provado que OpenAI e Meta usaram sites ilegais de torrent para adquirir materiais protegidos por direitos autorais para treinar seus modelos de IA, Silverman pode ter uma chance de ganhar o processo. No entanto, os modelos de IA são um território desconhecido, sem precedentes para os tribunais se basearem para tomar uma decisão com base na violação de direitos autorais da IA. Na verdade, essa é uma das razões pelas quais a UE propôs uma Lei de IA.

Qual é o futuro dos modelos de IA e da lei de direitos autorais?

Ainda estamos nos primeiros dias da IA ​​para saber como ela se adaptará à lei de direitos autorais. É ainda mais complexo tentar descobrir quem detém os direitos autorais da criação de IA. Mas para os criadores humanos, existem regulamentos para protegê-los contra o acesso de terceiros a seu material protegido por direitos autorais sem compensação, consentimento ou crédito. Se as regras existem para humanos, elas se aplicarão aos modelos de IA?

O parlamento da UE elaborou o esboço mais próximo do futuro de como os modelos de IA cumprirão a lei de direitos autorais. Se a Lei de IA da UE for aprovada em lei, modelos de IA como ChatGPT e Bard serão obrigados a publicar todas as suas fontes de conjuntos de dados e dados protegidos por direitos autorais usados ​​para treinamento. Isso ajudará a esclarecer qualquer confusão se os modelos de IA acessarem livros, filmes, músicas e fotos protegidos por direitos autorais para treinamento por meio de sites ilegais de pirataria.

A decisão do processo de ação coletiva da AI estabelecerá um precedente legal

Grandes modelos de linguagem podem vasculhar todos os cantos da Internet em busca de dados usados ​​no treinamento. Mas eles seriam responsáveis ​​por violação de direitos autorais se acessassem sites ilegais de torrent para adquirir os dados? E se o fizerem, você pode provar isso?

Independentemente do resultado, as ações coletivas contra as empresas de tecnologia que possuem os modelos de IA mais populares estabelecerão um precedente que será relevante no futuro.