A inteligência artificial pode soar como o presidente. Ou pode soar como você ou eu. Então, que risco de segurança cibernética o software de clonagem de voz AI representa?

A Inteligência Artificial (IA) é uma tecnologia potente que promete transformar nossas vidas. Nunca isso ficou tão claro quanto hoje, quando ferramentas poderosas estão disponíveis para qualquer pessoa com conexão à Internet.

Isso inclui geradores de voz AI, software avançado capaz de imitar a fala humana com tanta competência que pode ser impossível distinguir entre os dois. O que isso significa para a cibersegurança?

Como funcionam os geradores de voz AI?

A síntese de fala, o processo de produção artificial da fala humana, existe há décadas. E como toda tecnologia, sofreu profundas mudanças ao longo dos anos.

Aqueles que usaram o Windows 2000 e o XP podem se lembrar do Microsoft Sam, a voz masculina de conversão de texto em fala padrão do sistema operacional. O Microsoft Sam fez o trabalho, mas os sons produzidos eram robóticos, rígidos e não naturais. As ferramentas que temos à nossa disposição hoje são consideravelmente mais avançadas, em grande parte graças ao aprendizado profundo.

A aprendizagem profunda é uma método de aprendizado de máquina que é baseado em redes neurais artificiais. Por causa dessas redes neurais, a IA moderna é capaz de processar dados quase como os neurônios do cérebro humano interpretam as informações. Ou seja, quanto mais semelhante à humana a IA se torna, melhor ela imita o comportamento humano.

Em poucas palavras, é assim que funcionam os modernos geradores de voz de IA. Quanto mais dados de fala eles são expostos, mais hábeis eles se tornam em emular a fala humana. Devido aos avanços relativamente recentes nesta tecnologia, o software de conversão de texto em fala de última geração pode essencialmente replicar os sons com os quais é alimentado.

Como os agentes de ameaças usam geradores de voz AI

Sem surpresa, essa tecnologia está sendo abusada por agentes de ameaças. E não apenas cibercriminosos no sentido típico da palavra, mas também por agentes de desinformação, scammers, black hat marketers e trolls.

No momento em que a ElevenLabs lançou uma versão beta de seu software de conversão de texto em fala em janeiro de 2023, trolls de extrema-direita no quadro de mensagens 4chan começaram a abusar dela. Usando a IA avançada, eles reproduziram as vozes de indivíduos como David Attenborough e Emma Watson, fazendo parecer que as celebridades estavam fazendo discursos vis e odiosos.

Como vício relatado na época, a ElevenLabs admitiu que as pessoas estavam fazendo mau uso de seu software, em particular a clonagem de voz. Esse recurso permite que qualquer pessoa "clone" a voz de outra pessoa; tudo o que você precisa fazer é carregar uma gravação de um minuto e deixar a IA fazer o resto. Presumivelmente, quanto mais longa for uma gravação, melhor será a saída.

Em março de 2023, um vídeo viral do TikTok chamou a atenção de O jornal New York Times. No vídeo, o famoso podcaster Joe Rogan e o Dr. Andrew Huberman, um convidado frequente do The Joe Rogan Experience, foram ouvidos discutindo uma bebida com cafeína para "aumentar a libido". O vídeo fez parecer que Rogan e Huberman estavam endossando inequivocamente o produto. Na realidade, suas vozes foram clonadas usando IA.

Na mesma época, o Silicon Valley Bank, com sede em Santa Clara, Califórnia, entrou em colapso devido a erros de gerenciamento de risco e outros problemas, e foi assumido pelo governo do estado. Esta foi a maior falência de um banco nos Estados Unidos desde a Crise Financeira de 2008, por isso causou ondas de choque nos mercados globais.

O que contribuiu para o pânico foi uma falsa gravação de áudio do presidente dos Estados Unidos, Joe Biden. Na gravação, Biden aparentemente foi ouvido alertando sobre um "colapso" iminente e instruindo seu governo a "usar toda a força da mídia para acalmar o público". Verificadores de fatos como PolitiFact foram rápidos em desmascarar o clipe, mas é provável que milhões já o tenham ouvido naquele ponto.

Se os geradores de voz AI podem ser usados ​​para se passar por celebridades, eles também podem ser usados ​​para se passar por pessoas comuns, e é exatamente isso que os cibercriminosos têm feito. De acordo com ZDNetName, milhares de americanos caem em golpes conhecidos como vishing ou phishing por voz todo ano. Um casal de idosos ganhou as manchetes nacionais em 2023 quando recebeu um telefonema de seu "neto", que alegou estar na prisão e pediu dinheiro.

Se você já carregou um vídeo do YouTube (ou apareceu em um), participou de uma grande chamada em grupo com pessoas que você não conhece sabe, ou carregou sua voz na internet de alguma forma, você ou seus entes queridos podem, teoricamente, estar em perigo. O que impediria um golpista de enviar sua voz para um gerador de IA, cloná-lo e entrar em contato com sua família?

Os geradores de voz AI estão perturbando o cenário de segurança cibernética

Não é preciso ser um especialista em segurança cibernética para reconhecer o quão perigosa a IA pode ser nas mãos erradas. E embora seja verdade que o mesmo pode ser dito para toda a tecnologia, a IA é uma ameaça única por vários motivos.

Por um lado, é relativamente novo, o que significa que realmente não sabemos o que esperar dele. As ferramentas modernas de IA permitem que os cibercriminosos dimensionem e automatizem suas operações de maneira sem precedentes, aproveitando a relativa ignorância do público em relação a esse assunto. Além disso, a IA generativa permite que agentes de ameaças com pouco conhecimento e habilidade criar código malicioso, criar sites fraudulentos, espalhar spam, escrever e-mails de phishing, gerar imagens realistas, e produzir horas intermináveis ​​de conteúdo falso de áudio e vídeo.

Crucialmente, isso funciona nos dois sentidos: a IA também é usada para proteger sistemas e provavelmente será nas próximas décadas. Seria razoável supor que o que nos espera é uma espécie de corrida armamentista de IA entre cibercriminosos e a indústria de cibersegurança, sendo que as capacidades defensivas e ofensivas destas ferramentas são inerentemente igual.

Para a pessoa comum, o advento da IA ​​generativa generalizada exige uma radical repensando as práticas de segurança. Por mais empolgante e útil que a IA possa ser, ela pode, no mínimo, confundir a linha entre o que é real e o que é real. não é e, na pior das hipóteses, agravar os problemas de segurança existentes e criar um novo espaço para os agentes de ameaças manobrarem em.

Geradores de voz mostram o potencial destrutivo da IA

Assim que o ChatGPT chegou ao mercado, as negociações sobre a regulamentação da IA ​​aumentaram. Qualquer tentativa de restringir essa tecnologia provavelmente exigiria cooperação internacional em um grau que não víamos há décadas, o que a torna improvável.

O gênio saiu da garrafa e o melhor que podemos fazer é nos acostumar. Isso e espero que o setor de segurança cibernética se ajuste de acordo.