Este grande modelo de linguagem foi treinado na dark web para avaliar ameaças de segurança cibernética. Aqui está o que você precisa saber.

A popularidade dos modelos de linguagem grande (LLMs) está aumentando, com novos continuamente entrando em cena. Esses modelos, como o ChatGPT, normalmente são treinados em várias fontes da Internet, incluindo artigos, sites, livros e mídias sociais.

Em um movimento sem precedentes, uma equipe de pesquisadores sul-coreanos desenvolveu o DarkBERT, um LLM treinado em conjuntos de dados retirados exclusivamente da dark web. Seu objetivo era criar uma ferramenta de IA que superasse os modelos de linguagem existentes e auxiliasse pesquisadores de ameaças, autoridades policiais e profissionais de segurança cibernética no combate a ameaças cibernéticas.

O que é DarkBERT?

DarkBERT é um modelo de codificador baseado em transformador baseado na arquitetura RoBERTa. O LLM foi treinado em milhões de páginas da dark web, incluindo dados de fóruns de hackers, sites fraudulentos e outras fontes online associadas a atividades ilegais.

instagram viewer

O termo "dark web" refere-se a uma seção oculta da Internet inacessíveis através de navegadores padrão. A subseção é conhecida por abrigar sites anônimos e mercados famosos por atividades ilegais, como o comércio de dados roubados, drogas e armas.

Para treinar o DarkBERT, os pesquisadores ganharam acesso à web escura através da rede Tor e coletou dados brutos. Eles filtraram cuidadosamente esses dados usando técnicas como desduplicação, balanceamento de categoria e pré-processamento para criar um banco de dados refinado da dark web, que foi então alimentado para RoBERTa ao longo de aproximadamente 15 dias para criar DarkBERT.

Possíveis usos do DarkBERT na segurança cibernética

O DarkBERT tem uma compreensão notável da linguagem dos cibercriminosos e se destaca em detectar ameaças potenciais específicas. Ele pode pesquisar a dark web e identificar e sinalizar com sucesso ameaças de segurança cibernética, como vazamentos de dados e ransomware, tornando-se uma ferramenta potencialmente útil para combater ameaças cibernéticas.

Para avaliar a eficácia do DarkBERT, os pesquisadores o compararam com dois renomados modelos de PNL, BERT e RoBERTa, avaliando seu desempenho em três casos de uso cruciais relacionados à segurança cibernética, a pesquisa, postado em arxiv.org, indica.

1. Monitore os fóruns da Dark Web em busca de tópicos potencialmente nocivos

O monitoramento de fóruns da dark web, comumente usados ​​para troca de informações ilícitas, é crucial para identificar tópicos potencialmente perigosos. No entanto, revisá-los manualmente pode ser demorado, tornando a automação do processo benéfica para os especialistas em segurança.

Os pesquisadores se concentraram em atividades potencialmente prejudiciais em fóruns de hackers, elaborando diretrizes de anotação para tópicos notáveis, incluindo compartilhamento de dados confidenciais e distribuição de malware crítico ou vulnerabilidades.

O DarkBERT superou outros modelos de linguagem em termos de precisão, revocação e pontuação F1, emergindo como a escolha superior para identificar threads notáveis ​​na dark web.

2. Detectar sites que hospedam informações confidenciais

Hackers e grupos de ransomware usam a dark web para criar sites de vazamento, onde publicam dados confidenciais roubados de organizações que se recusam a cumprir as exigências de resgate. Outros cibercriminosos apenas carregam dados confidenciais vazados, como senhas e informações financeiras, para a dark web com a intenção de vendê-los.

Em seu estudo, os pesquisadores coletaram dados de grupos de ransomware notórios e analisaram sites de vazamento de ransomware que publicam dados privados das organizações. O DarkBERT superou outros modelos de linguagem na identificação e classificação desses sites, mostrando sua compreensão da linguagem usada em fóruns de hackers clandestinos na dark web.

O DarkBERT aproveita a função de máscara de preenchimento, um recurso inerente aos modelos de linguagem da família BERT, para identificar com precisão palavras-chave associadas a atividades ilegais, incluindo vendas de drogas na dark web.

Quando a palavra "MDMA" foi mascarada em uma página de vendas de drogas, o DarkBERT gerou palavras relacionadas a drogas, enquanto outros modelos sugeriram palavras gerais e termos não relacionados a drogas, como várias profissões.

A capacidade do DarkBERT de identificar palavras-chave relacionadas a atividades ilícitas pode ser valiosa para rastrear e lidar com ameaças cibernéticas emergentes.

O DarkBERT é acessível ao público em geral?

Atualmente, o DarkBERT não está disponível ao público, mas os pesquisadores estão abertos a solicitações para usá-lo para fins acadêmicos.

Aproveite o poder da IA ​​para detecção e prevenção de ameaças

O DarkBERT foi pré-treinado em dados da dark web e supera os modelos de linguagem existentes em vários casos de uso de segurança cibernética, posicionando-se como uma ferramenta crucial para o avanço da pesquisa na dark web.

A IA treinada na dark web tem potencial para ser usada para várias tarefas de segurança cibernética, incluindo a identificação de sites que vendem vazamentos dados confidenciais, monitoramento de fóruns da dark web para detectar compartilhamento ilícito de informações e identificação de palavras-chave relacionadas a cibercriminosos ameaças.

Mas você deve sempre lembrar que, como outros LLMs, o DarkBERT é um trabalho em andamento e seu desempenho pode ser aprimorado por meio de treinamento contínuo e ajuste fino.