Você já deve ter ouvido falar de ataques adversários em relação à inteligência artificial e aprendizado de máquina, mas o que são? Quais são seus objetivos?
A tecnologia geralmente significa que nossas vidas são mais convenientes e seguras. Ao mesmo tempo, porém, tais avanços abriram caminhos mais sofisticados para os cibercriminosos nos atacarem e corromperem nossos sistemas de segurança, tornando-os impotentes.
A inteligência artificial (IA) pode ser utilizada tanto por profissionais de segurança cibernética quanto por cibercriminosos; da mesma forma, os sistemas de aprendizado de máquina (ML) podem ser usados tanto para o bem quanto para o mal. Essa falta de bússola moral tornou os ataques adversários no ML um desafio crescente. Então, o que realmente são ataques adversários? Quais são seus propósitos? E como você pode se proteger contra eles?
O que são ataques adversários no aprendizado de máquina?
Adversarial ML ou ataques adversários são ataques cibernéticos que visam enganar um modelo de ML com entrada maliciosa e, assim, levar a menor precisão e baixo desempenho. Portanto, apesar do nome, o ML adversário não é um tipo de aprendizado de máquina, mas uma variedade de técnicas que os cibercriminosos, também conhecidos como adversários, usam para atingir os sistemas de ML.
O principal objetivo de tais ataques geralmente é enganar o modelo para distribuir informações confidenciais, deixar de detectar atividades fraudulentas, produzir previsões incorretas ou corromper relatórios. Embora existam vários tipos de ataques adversários, eles frequentemente visam a detecção de spam baseada em aprendizado profundo.
Você provavelmente já ouviu falar de um ataque do adversário no meio, que é uma técnica de phishing sofisticada nova e mais eficaz que envolve o roubo de informações privadas, cookies de sessão e até mesmo ignorar métodos de autenticação multifator (MFA). Felizmente, você pode combatê-los com tecnologia MFA resistente a phishing.
Tipos de Ataques Adversários
A maneira mais simples de classificar os tipos de ataques adversários é separá-los em duas categorias principais—ataques direcionados e ataques não direcionados. Como é sugerido, os ataques direcionados têm um alvo específico (como uma pessoa em particular), enquanto os não direcionados não têm ninguém específico em mente: eles podem atingir quase qualquer pessoa. Não surpreendentemente, os ataques não direcionados consomem menos tempo, mas também são menos bem-sucedidos do que seus equivalentes direcionados.
Esses dois tipos podem ser subdivididos em caixa branca e caixa preta ataques adversários, onde a cor sugere o conhecimento ou a falta de conhecimento do modelo de ML visado. Antes de nos aprofundarmos nos ataques de caixa branca e caixa preta, vamos dar uma olhada rápida nos tipos mais comuns de ataques adversários.
- Evasão: usado principalmente em cenários de malware, os ataques de evasão tentam evitar a detecção, ocultando o conteúdo de e-mails de spam e infestados de malware. Ao utilizar o método de tentativa e erro, o invasor manipula os dados no momento da implantação e corrompe a confidencialidade de um modelo de ML. A falsificação biométrica é um dos exemplos mais comuns de ataque de evasão.
- envenenamento de dados: também conhecidos como ataques de contaminação, visam manipular um modelo de ML durante o período de treinamento ou implantação e diminuir a precisão e o desempenho. Ao introduzir entradas maliciosas, os invasores interrompem o modelo e dificultam que os profissionais de segurança detectem o tipo de dados de amostra que corrompe o modelo de ML.
- falhas bizantinas: Este tipo de ataque causa a perda de um serviço do sistema por falha bizantina em sistemas que requerem consenso entre todos os seus nós. Depois que um de seus nós confiáveis se torna desonesto, ele pode iniciar um ataque de negação de serviço (DoS) e desligar o sistema, impedindo que outros nós se comuniquem.
- Extração de modelo:Em um ataque de extração, o adversário sondará um sistema ML de caixa preta para extrair seus dados de treinamento ou, no pior cenário, o próprio modelo. Então, com uma cópia de um modelo de ML em mãos, um adversário poderia testar seu malware contra o antimalware/antivírus e descobrir como contorná-lo.
- Ataques de inferência: assim como nos ataques de extração, o objetivo aqui é fazer com que um modelo de ML vaze informações sobre seus dados de treinamento. No entanto, o adversário tentará descobrir qual conjunto de dados foi usado para treinar o sistema, para que possa explorar vulnerabilidades ou vieses nele.
Caixa-branca vs. Caixa-preta vs. Ataques adversários de caixa cinza
O que diferencia esses três tipos de ataques adversários é a quantidade de conhecimento que os adversários têm sobre o funcionamento interno dos sistemas de ML que planejam atacar. Embora o método de caixa branca exija informações exaustivas sobre o modelo de ML de destino (incluindo sua arquitetura e parâmetros), o método caixa-preta não requer informações e pode apenas observar sua saídas.
O modelo de caixa cinza, por sua vez, situa-se no meio desses dois extremos. Segundo ele, os adversários podem ter algumas informações sobre o conjunto de dados ou outros detalhes sobre o modelo de ML, mas não tudo.
Como você pode defender o aprendizado de máquina contra ataques adversários?
Embora os seres humanos ainda sejam o componente crítico no fortalecimento da segurança cibernética,AI e ML aprenderam a detectar e prevenir ataques maliciosos— eles podem aumentar a precisão da detecção de ameaças maliciosas, monitoramento da atividade do usuário, identificação de conteúdo suspeito e muito mais. Mas eles podem repelir ataques adversários e proteger modelos de ML?
Uma maneira de combater os ataques cibernéticos é treinar os sistemas de ML para reconhecer ataques adversários com antecedência, adicionando exemplos ao procedimento de treinamento.
Ao contrário dessa abordagem de força bruta, o método de destilação defensiva propõe que usemos o modelo primário e mais eficiente para descobrir as características críticas de um modelo secundário menos eficiente e, em seguida, melhorar a precisão do secundário com o primário um. Os modelos de ML treinados com destilação defensiva são menos sensíveis a amostras adversárias, o que os torna menos suscetíveis à exploração.
Também poderíamos modificar constantemente os algoritmos que os modelos de ML usam para classificação de dados, o que poderia tornar os ataques adversários menos bem-sucedidos.
Outra técnica notável é a compressão de recursos, que reduzirá o espaço de pesquisa disponível para os adversários ao “espremer” recursos de entrada desnecessários. Aqui, o objetivo é minimizar os falsos positivos e tornar a detecção de exemplos adversários mais eficaz.
Protegendo o aprendizado de máquina e a inteligência artificial
Os ataques adversários nos mostraram que muitos modelos de ML podem ser destruídos de maneiras surpreendentes. Afinal, o aprendizado de máquina contraditório ainda é um novo campo de pesquisa no domínio da segurança cibernética e traz muitos problemas complexos para IA e ML.
Embora não haja uma solução mágica para proteger esses modelos contra todos os ataques adversários, o futuro provavelmente trará técnicas mais avançadas e estratégias mais inteligentes para lidar com esse terrível adversário.