Os modelos de IA são tão bons quanto os dados que os contêm. Isso torna esses dados um alvo potencial para ataques.
Os avanços na inteligência artificial tiveram uma influência significativa em diferentes campos. Isso tem causado preocupação a um grande número de entusiastas de tecnologia. À medida que essas tecnologias se expandem para diferentes aplicativos, elas podem resultar em um aumento de ataques adversários.
O que são ataques adversários em inteligência artificial?
Os ataques adversários exploram especificações e vulnerabilidades nos modelos de IA. Eles corrompem os dados com os quais os modelos de IA aprenderam e fazem com que esses modelos gerem saídas imprecisas.
Imagine que um brincalhão mude as peças de scrabble organizadas como abacaxi para se tornar “maçã”. Isso é semelhante ao que ocorre em ataques adversários.
Alguns anos atrás, obter algumas respostas ou saídas incorretas de um modelo de IA era a norma. O inverso é o caso agora, pois as imprecisões se tornaram a exceção, com os usuários de IA esperando resultados quase perfeitos.
Quando esses modelos de IA são aplicados a cenários do mundo real, as imprecisões podem ser fatais, tornando os ataques adversários muito perigosos. Por exemplo, adesivos em sinais de trânsito podem confundir um carro autônomo autônomo e fazer com que ele entre no trânsito ou diretamente em um obstáculo.
Tipos de Ataques Adversários
Existem várias formas de ataques adversários. Com o integração crescente de IA em aplicativos do dia a dia, esses ataques provavelmente ficarão piores e mais complexos.
No entanto, podemos classificar aproximadamente os ataques adversários em dois tipos com base em quanto o agente da ameaça sabe sobre o modelo de IA.
1. Ataques de caixa branca
Em ataques de caixa branca, os agentes de ameaças têm conhecimento completo do funcionamento interno do modelo de IA. Eles conhecem suas especificações, dados de treinamento, técnicas de processamento e parâmetros. Esse conhecimento permite que eles construam um ataque adversário especificamente para o modelo.
O primeiro passo em um ataque de caixa branca é alterar os dados de treinamento originais, corrompendo-os o mínimo possível. Os dados modificados ainda serão muito semelhantes aos originais, mas significativos o suficiente para fazer com que o modelo de IA forneça resultados imprecisos.
Isso não é tudo. Após o ataque, o agente da ameaça avalia a eficácia do modelo, alimentando-o com exemplos adversários—entradas distorcidas projetadas para fazer com que o modelo cometa erros— e analisa a saída. Quanto mais impreciso o resultado, mais bem-sucedido o ataque.
2. Ataques de caixa preta
Ao contrário dos ataques de caixa branca, onde o agente da ameaça conhece o funcionamento interno do modelo de IA, os perpetradores de ataques de caixa preta não tem ideia de como o modelo funciona. Eles simplesmente observam o modelo de um ponto cego, monitorando seus valores de entrada e saída.
A primeira etapa em um ataque de caixa preta é selecionar o alvo de entrada que o modelo de IA deseja classificar. O agente da ameaça cria uma versão maliciosa da entrada adicionando ruído cuidadosamente criado, perturbações nos dados invisíveis ao olho humano, mas capazes de fazer com que o modelo de IA defeituoso.
A versão maliciosa é alimentada ao modelo e a saída é observada. Os resultados fornecidos pelo modelo ajudam o agente da ameaça a continuar modificando a versão até que esteja confiante o suficiente para classificar incorretamente quaisquer dados inseridos nele.
Técnicas usadas em ataques adversários
Entidades maliciosas podem usar diferentes técnicas para realizar ataques adversários. Aqui estão algumas dessas técnicas.
1. Envenenamento
Os invasores podem manipular (envenenar) uma pequena parte dos dados de entrada de um modelo de IA para comprometer seus conjuntos de dados de treinamento e precisão.
Existem várias formas de envenenamento. Um dos mais comuns é chamado de envenenamento por backdoor, em que poucos dados de treinamento são afetados. O modelo AI continua a fornecer resultados altamente precisos até que seja “ativado” para funcionar mal ao entrar em contato com gatilhos específicos.
2. Evasão
Essa técnica é bastante letal, pois evita a detecção indo atrás do sistema de segurança da IA.
A maioria dos modelos de IA está equipada com sistemas de detecção de anomalias. As técnicas de evasão fazem uso de exemplos adversários que vão atrás desses sistemas diretamente.
Essa técnica pode ser especialmente perigosa contra sistemas clínicos, como carros autônomos ou modelos de diagnósticos médicos. Estes são campos onde as imprecisões podem ter consequências graves.
3. Transferibilidade
Os agentes de ameaças que usam essa técnica não precisam de conhecimento prévio dos parâmetros do modelo de IA. Eles usam ataques adversários que tiveram sucesso no passado contra outras versões do modelo.
Por exemplo, se um ataque adversário fizer com que um modelo de classificador de imagem confunda uma tartaruga com um rifle, o ataque exato pode fazer com que outros modelos de classificador de imagem cometam o mesmo erro. Os outros modelos podem ter sido treinados em um conjunto de dados diferente e até ter uma arquitetura diferente, mas ainda podem ser vítimas do ataque.
4. barriga de aluguel
Em vez de perseguir os sistemas de segurança do modelo usando técnicas de evasão ou ataques anteriores bem-sucedidos, o agente da ameaça pode usar um modelo substituto.
Com essa técnica, o agente da ameaça cria uma versão idêntica do modelo de destino, um modelo substituto. Os resultados, parâmetros e comportamentos de um substituto devem ser idênticos ao modelo original que foi copiado.
O substituto agora estará sujeito a vários ataques adversários até que um deles produza um resultado impreciso ou execute uma classificação incorreta. Então, este ataque será usado no AI alvo original.
Como parar ataques adversários
A defesa contra ataques adversários pode ser complexa e demorada, pois os agentes de ameaças empregam várias formas e técnicas. No entanto, as etapas a seguir podem impedir e interromper ataques adversários.
1. Treinamento Adversário
A etapa mais eficaz que pode impedir ataques adversários é o treinamento adversário, o treinamento de modelos e máquinas de IA usando exemplos adversários. Isso melhora a robustez do modelo e permite que ele seja resiliente às menores perturbações de entrada.
2. Auditoria Regular
É necessário verificar regularmente se há pontos fracos no sistema de detecção de anomalias de um modelo de IA. Isso envolve alimentar deliberadamente o modelo com exemplos adversários e monitorar o comportamento do modelo para a entrada maliciosa.
3. Sanitização de Dados
Este método envolve a verificação de entradas maliciosas sendo alimentadas no modelo. Após identificá-los, eles devem ser removidos imediatamente.
Esses dados podem ser identificados usando a validação de entrada, que envolve a verificação dos dados em busca de padrões ou assinaturas de exemplos adversários conhecidos anteriormente.
4. Atualizações de segurança
Seria difícil dar errado com atualizações e patches de segurança. Segurança em várias camadas, como firewalls, programas antimalware e sistemas de detecção e prevenção de intrusão pode ajudar a bloquear a interferência externa de agentes de ameaças que desejam envenenar um modelo de IA.
Ataques adversários podem ser um adversário digno
O conceito de ataques adversários apresenta um problema para aprendizado avançado e aprendizado de máquina.
Como resultado, os modelos de IA devem ser armados com defesas como treinamento adversário, auditoria regular, sanitização de dados e atualizações de segurança relevantes.