Você já deve ter ouvido falar de ataques adversários em relação à inteligência artificial e aprendizado de máquina, mas o que são? Quais são seus objetivos?

A tecnologia geralmente significa que nossas vidas são mais convenientes e seguras. Ao mesmo tempo, porém, tais avanços abriram caminhos mais sofisticados para os cibercriminosos nos atacarem e corromperem nossos sistemas de segurança, tornando-os impotentes.

A inteligência artificial (IA) pode ser utilizada tanto por profissionais de segurança cibernética quanto por cibercriminosos; da mesma forma, os sistemas de aprendizado de máquina (ML) podem ser usados ​​tanto para o bem quanto para o mal. Essa falta de bússola moral tornou os ataques adversários no ML um desafio crescente. Então, o que realmente são ataques adversários? Quais são seus propósitos? E como você pode se proteger contra eles?

O que são ataques adversários no aprendizado de máquina?

Adversarial ML ou ataques adversários são ataques cibernéticos que visam enganar um modelo de ML com entrada maliciosa e, assim, levar a menor precisão e baixo desempenho. Portanto, apesar do nome, o ML adversário não é um tipo de aprendizado de máquina, mas uma variedade de técnicas que os cibercriminosos, também conhecidos como adversários, usam para atingir os sistemas de ML.

O principal objetivo de tais ataques geralmente é enganar o modelo para distribuir informações confidenciais, deixar de detectar atividades fraudulentas, produzir previsões incorretas ou corromper relatórios. Embora existam vários tipos de ataques adversários, eles frequentemente visam a detecção de spam baseada em aprendizado profundo.

Você provavelmente já ouviu falar de um ataque do adversário no meio, que é uma técnica de phishing sofisticada nova e mais eficaz que envolve o roubo de informações privadas, cookies de sessão e até mesmo ignorar métodos de autenticação multifator (MFA). Felizmente, você pode combatê-los com tecnologia MFA resistente a phishing.

Tipos de Ataques Adversários

A maneira mais simples de classificar os tipos de ataques adversários é separá-los em duas categorias principais—ataques direcionados e ataques não direcionados. Como é sugerido, os ataques direcionados têm um alvo específico (como uma pessoa em particular), enquanto os não direcionados não têm ninguém específico em mente: eles podem atingir quase qualquer pessoa. Não surpreendentemente, os ataques não direcionados consomem menos tempo, mas também são menos bem-sucedidos do que seus equivalentes direcionados.

Esses dois tipos podem ser subdivididos em caixa branca e caixa preta ataques adversários, onde a cor sugere o conhecimento ou a falta de conhecimento do modelo de ML visado. Antes de nos aprofundarmos nos ataques de caixa branca e caixa preta, vamos dar uma olhada rápida nos tipos mais comuns de ataques adversários.

  • Evasão: usado principalmente em cenários de malware, os ataques de evasão tentam evitar a detecção, ocultando o conteúdo de e-mails de spam e infestados de malware. Ao utilizar o método de tentativa e erro, o invasor manipula os dados no momento da implantação e corrompe a confidencialidade de um modelo de ML. A falsificação biométrica é um dos exemplos mais comuns de ataque de evasão.
  • envenenamento de dados: também conhecidos como ataques de contaminação, visam manipular um modelo de ML durante o período de treinamento ou implantação e diminuir a precisão e o desempenho. Ao introduzir entradas maliciosas, os invasores interrompem o modelo e dificultam que os profissionais de segurança detectem o tipo de dados de amostra que corrompe o modelo de ML.
  • falhas bizantinas: Este tipo de ataque causa a perda de um serviço do sistema por falha bizantina em sistemas que requerem consenso entre todos os seus nós. Depois que um de seus nós confiáveis ​​se torna desonesto, ele pode iniciar um ataque de negação de serviço (DoS) e desligar o sistema, impedindo que outros nós se comuniquem.
  • Extração de modelo:Em um ataque de extração, o adversário sondará um sistema ML de caixa preta para extrair seus dados de treinamento ou, no pior cenário, o próprio modelo. Então, com uma cópia de um modelo de ML em mãos, um adversário poderia testar seu malware contra o antimalware/antivírus e descobrir como contorná-lo.
  • Ataques de inferência: assim como nos ataques de extração, o objetivo aqui é fazer com que um modelo de ML vaze informações sobre seus dados de treinamento. No entanto, o adversário tentará descobrir qual conjunto de dados foi usado para treinar o sistema, para que possa explorar vulnerabilidades ou vieses nele.

Caixa-branca vs. Caixa-preta vs. Ataques adversários de caixa cinza

O que diferencia esses três tipos de ataques adversários é a quantidade de conhecimento que os adversários têm sobre o funcionamento interno dos sistemas de ML que planejam atacar. Embora o método de caixa branca exija informações exaustivas sobre o modelo de ML de destino (incluindo sua arquitetura e parâmetros), o método caixa-preta não requer informações e pode apenas observar sua saídas.

O modelo de caixa cinza, por sua vez, situa-se no meio desses dois extremos. Segundo ele, os adversários podem ter algumas informações sobre o conjunto de dados ou outros detalhes sobre o modelo de ML, mas não tudo.

Como você pode defender o aprendizado de máquina contra ataques adversários?

Embora os seres humanos ainda sejam o componente crítico no fortalecimento da segurança cibernética,AI e ML aprenderam a detectar e prevenir ataques maliciosos— eles podem aumentar a precisão da detecção de ameaças maliciosas, monitoramento da atividade do usuário, identificação de conteúdo suspeito e muito mais. Mas eles podem repelir ataques adversários e proteger modelos de ML?

Uma maneira de combater os ataques cibernéticos é treinar os sistemas de ML para reconhecer ataques adversários com antecedência, adicionando exemplos ao procedimento de treinamento.

Ao contrário dessa abordagem de força bruta, o método de destilação defensiva propõe que usemos o modelo primário e mais eficiente para descobrir as características críticas de um modelo secundário menos eficiente e, em seguida, melhorar a precisão do secundário com o primário um. Os modelos de ML treinados com destilação defensiva são menos sensíveis a amostras adversárias, o que os torna menos suscetíveis à exploração.

Também poderíamos modificar constantemente os algoritmos que os modelos de ML usam para classificação de dados, o que poderia tornar os ataques adversários menos bem-sucedidos.

Outra técnica notável é a compressão de recursos, que reduzirá o espaço de pesquisa disponível para os adversários ao “espremer” recursos de entrada desnecessários. Aqui, o objetivo é minimizar os falsos positivos e tornar a detecção de exemplos adversários mais eficaz.

Protegendo o aprendizado de máquina e a inteligência artificial

Os ataques adversários nos mostraram que muitos modelos de ML podem ser destruídos de maneiras surpreendentes. Afinal, o aprendizado de máquina contraditório ainda é um novo campo de pesquisa no domínio da segurança cibernética e traz muitos problemas complexos para IA e ML.

Embora não haja uma solução mágica para proteger esses modelos contra todos os ataques adversários, o futuro provavelmente trará técnicas mais avançadas e estratégias mais inteligentes para lidar com esse terrível adversário.