A música deepfake imita o estilo de um determinado artista, incluindo sua voz. Como é possível que soe tão real?
Por muito tempo, a música conseguiu evitar o mundo dos deepfakes porque era simplesmente muito complicado sintetizar a voz de alguém. Tudo isso mudou com os avanços na tecnologia de IA. Isso resultou em clones de voz de artistas famosos que podem ser usados para produzir novas faixas vocais.
Com as ferramentas de IA se tornando mais acessíveis para pessoas comuns, a música deepfake é um problema crescente. Aqui está o que é e como é criado.
A evolução da música deepfake
Quando você ouve seu artista favorito cantando no Spotify ou no YouTube, dificilmente pensa que poderia ser falso, mas os avanços da IA tornaram isso uma realidade. Juntamente com imagens e vídeos falsos, também existe música deepfake.
As ferramentas de IA podem reproduzir fielmente a voz cantada de uma pessoa treinando um modelo de IA em amostras de áudio de sua voz. Criado por fãs do artista, ou fãs da tecnologia AI, mais pessoas estão tentando criar doppelgängers vocais.
As pessoas tentam sintetizar a voz usando um computador há anos, desde 1961, quando o IBM 7094 foi o primeiro computador a cantar. Você pode ouvir o voz gerada por computador cantando Daisy Bell em um clipe do YouTube e tente imaginar o quão incrível foi esse momento.
Avanço rápido para o século 21 e a tecnologia AI melhorou a qualidade da voz sintetizada e nos permitiu fazer coisas que a maioria de nós nunca pensou ser possível até agora, como clonar as vozes das pessoas.
Dá só uma olhada nesse clipe de Roberto Nickson transformando sua voz na do artista e rapper Kanye West. Assistir ao vídeo parece estranho, realmente soa como Kanye, mas também é desconfortável de assistir. Sem pensar muito sobre como o artista pode pensar ou sentir, e sem permissão, pode ser visto como uma apropriação da voz de alguém.
Ao contrário da versão computadorizada de Daisy Bell, a clonagem vocal AI é capaz de reproduzir a semelhança exata de a voz de alguém, que inclui todas as diferenças sutis de timbre que nos ajudam a identificar o vocal único de alguém perfil. Sem licença e sem permissão, no entanto, a música deepfake tem alguns problemas sérios, que abordaremos mais tarde.
Como as músicas deepfake são criadas
Diferentes métodos estão sendo usados para criar músicas deepfake, mas muitos deles usam tecnologia AI. Projetos de código aberto como Projeto SoftVC VITS Singing Voice Conversion no GitHub, por exemplo, desenvolveram um modelo de IA que faz o que diz em seu nome: converte uma amostra de áudio em uma voz cantada.
Este modelo pega um arquivo de áudio existente de alguém cantando e o converte na voz de outra pessoa. Coisas como a letra e o ritmo da voz original são mantidos, mas o tom, o timbre e as qualidades vocais pessoais são convertidos na voz especificada pelo conjunto de dados de treinamento.
Lembre-se de que outras partes da música ainda podem ser produzidas manualmente, como criar batidas e melodias no mesmo estilo e gênero do artista original.
Para criar um deepfake da voz de Kanye West, um conjunto de dados de terceiros teve que ser inserido no modelo SoftVC VITS, que incluiria amostras da voz real de Kanye. O arquivo que contém o conjunto de dados já foi removido pelo autor, o que não é surpreendente, considerando o território legal obscuro que pode vir com conjuntos de dados não autorizados.
Embora não tenha se tornado um aplicativo comercial, você pode encontrar uma versão do Modelo SoftVC VITS no Google Collab que é mais amigável.
Até que os limites éticos e legais sejam estabelecidos, é possível que aplicativos de clonagem de voz mais fáceis de usar pop-up - não muito diferente do aplicativo Drayk.it, que transformou uma descrição de texto em músicas com o estilo do artista Drake. Mais tarde foi encerrado.
Algumas outras ferramentas usadas para criar música deepfake incluem modelos de linguagem grandes como ChatGPT, que pode ser usado para escrever letras no estilo de um artista famoso; e Jukebox da OpenAI e MusicLM do Google, que são modelos generativos de IA que podem criar música em formato de áudio bruto completamente do zero.
Você pode ouvir a diferença?
Uma faixa criada por um usuário anônimo chamado Ghostwriter se tornou viral no TikTok em abril de 2023, em grande parte porque continha letras cantadas pelos artistas Drake e The Weeknd. Claro, essas não eram as vozes reais dos artistas, mas falsas.
Se os vocais não fossem uma cópia tão boa do original, poderia não ter sido um sucesso. Com um pouco de pesquisa, você poderia descobrir rapidamente se era real ou não, mas usando apenas seus ouvidos, você só poderia adivinhar se era autêntico.
Se você quiser identificar uma imagem gerada por IA há pelo menos algumas aberrações visuais que você pode procurar. Quanto ao áudio, sinais como áudio de baixa fidelidade ou falhas na faixa não significam muito, pois são escolhas criativas usadas na produção musical o tempo todo.
O que é ainda mais interessante é que muitas pessoas realmente gostam da música, mesmo depois de descobrir que não eram as vozes reais de Drake ou The Weeknd. Os admiradores apontaram que nem tudo foi simplesmente gerado com IA, e que muita habilidade e trabalho foram necessários para escrever as letras, compor as batidas e juntar tudo.
A faixa chegou ao Spotify e ao YouTube antes de ser retirada nos dias seguintes, mas não antes de os fãs baixarem a música como um mp3. Você ainda pode encontrar cópias da música online se pesquisar "Heart On My Sleeve, Drake ft. O fim de semana".
Em breve, identificar a diferença entre clones vocais gerados por IA e a voz humana real se tornará quase impossível. Com isso em mente, as pessoas estão questionando se esse é um bom uso da tecnologia de IA em primeiro lugar, ou mesmo um uso legal dela.
Problemas com música deepfake
Por um lado, as pessoas gostam de ouvir mashups feitos por fãs de seus artistas favoritos e respeitam a criatividade necessária para torná-los realidade. Mas a capacidade de ter clones vocais em primeiro lugar depende de conjuntos de dados que podem ou não ser autorizados.
Sem permissão, amostras da voz de uma pessoa são coletadas em um conjunto de dados que é usado para treinar um modelo de conversão de voz de IA. É semelhante ao problema enfrentado por artistas que desejam remover suas imagens dos conjuntos de dados de treinamento que são usados para treinar geradores de imagens de IA como Dall-E ou Midjourney.
A lei de direitos autorais também não está preparada para lidar com a música deepfake. Em 2020, o artista Jay-Z falhou ao tentar forçar o YouTube a remover o áudio gerado por IA dele cantando versos do solilóquio "To Be or Not to Be" de William Shakespeare.
Quando uma música deepfake é carregada no Spotify ou no YouTube, também há a questão de quem está ganhando dinheiro. Você deveria ganhar dinheiro com uma música que copia a voz de outra pessoa quase exatamente?
Holly Herndon é uma artista que tentou criar um sistema para que as pessoas a compensassem em troca de usar seu modelo de voz para criar um trabalho original. Enquanto outros artistas como Nick Cave têm falado contra a IA, escrita:
As canções surgem do sofrimento, com o que quero dizer, são baseadas na complexa luta humana interna da criação e, bem, até onde eu sei, os algoritmos não sentem.
Às vezes, O texto gerado por IA pode carecer de criatividade completamente, mas eles ainda são postados online. A IA pode resultar em muita música ruim com muito pouco esforço.
Encontrando um equilíbrio entre música e IA
A música deepfake é criada usando ferramentas de IA e modelos de IA que foram treinados em conjuntos de dados não autorizados. Alguns modelos são de código aberto e de acesso livre, enquanto outras tentativas foram feitas para empacotá-los em um aplicativo fácil de usar.
À medida que mais pessoas colocam as mãos em aplicativos ou modelos de música deepfake, vale a pena pensar no impacto sobre o artista. Obter consentimento para conjuntos de dados de treinamento e compensação para o artista são apenas alguns dos problemas que pairam sobre a tecnologia de música AI.