DarkBERT pode ajudar a automatizar a mineração na dark web para inteligência de ameaças cibernéticas

Views: 549
0 0
Read Time:3 Minute, 43 Second

Pesquisadores desenvolveram o DarkBERT, um modelo de linguagem pré-treinado em dados da dark web, para ajudar os profissionais de segurança cibernética a extrair inteligência de ameaças cibernéticas (CTI) do submundo virtual da Internet.

CTI na dark web
Processo de pré-treinamento do DarkBERT e cenários de caso de uso avaliados (Fonte: KAIST/S2W)

DarkBERT: Um modelo de linguagem para a dark web

Há algum tempo, pesquisadores e especialistas em segurança cibernética têm aproveitado o processamento de linguagem natural (PNL) para entender e lidar melhor com o cenário de ameaças. As ferramentas de PNL tornaram-se parte integrante da pesquisa em CTI.

A dark web, conhecida como um “playground” de indivíduos envolvidos em atividades ilegais, apresenta desafios distintos quando se trata de extrair e analisar CTI em escala.

Uma equipe de pesquisadores do Instituto Avançado de Ciência e Tecnologia da Coreia (KAIST) e da empresa de inteligência de dados S2W decidiu testar se um modelo de linguagem personalizado poderia ser útil, então eles criaram o DarkBERT, que é pré-treinado em dados da dark web (ou seja, a linguagem específica usada nesse domínio).

Cenários potenciais de caso de uso

O DarkBERT passou por um extenso treinamento prévio em textos em inglês – aproximadamente 6,1 milhões de páginas encontradas na dark web. (Os pesquisadores filtraram páginas sem sentido e irrelevantes.)

Sua eficácia foi então comparada a dois modelos populares de PNL – BERT, um modelo de linguagem mascarada introduzido pelo Google em 2018, e RoBERTa, uma abordagem de IA desenvolvida pelo Facebook em 2019.

Os pesquisadores testaram o DarkBERT para uso em três casos de uso relacionados à segurança cibernética:

1. Detecção de site de vazamento de ransomware

Gangues de ransomware usam a dark web para criar sites de vazamento, onde publicam dados confidenciais de organizações que se recusaram a pagar o resgate.

Os três modelos de linguagem foram encarregados de identificar e classificar esses sites, e o DarkBERT superou os demais, “demonstrando [suas vantagens] na compreensão da linguagem de fóruns de hackers subterrâneos na dark web”.

“O DarkBERT com entrada pré-processada tem um desempenho melhor do que aquele com entrada bruta, o que destaca a importância da etapa de pré-processamento de texto em termos de redução de informações supérfluas”, observaram os pesquisadores.

2. Detecção de rosca notável

Os fóruns da dark web são comumente usados para trocar informações ilícitas, e os pesquisadores de segurança geralmente os monitoram em busca de tópicos notáveis, para que possam mitigar os riscos associados. Mas existem muitos fóruns da dark web e um grande número de postagens em fóruns, e ser capaz de automatizar a descoberta e a avaliação da notoriedade dos tópicos pode reduzir significativamente sua carga de trabalho. Novamente, o principal problema é a linguagem específica usada na dark web.

“Devido à dificuldade da tarefa em si, o desempenho geral do DarkBERT para detecção de threads notáveis do mundo real não é tão bom em comparação com os das avaliações e tarefas anteriores”, descobriram os pesquisadores.

“No entanto, o desempenho do DarkBERT em relação a outros modelos de linguagem mostrados aqui é significativo e mostra seu potencial em tarefas de domínio da dark web. Ao adicionar mais amostras de treinamento e incorporar recursos adicionais, como informações sobre o autor, acreditamos que o desempenho da detecção pode ser melhorado ainda mais.”

3. Inferência de palavras-chave de ameaça

Os pesquisadores usaram a função de máscara de preenchimento para identificar palavras-chave ligadas a (neste caso) ameaças e vendas de drogas na dark web.

“A máscara de preenchimento é uma das principais funcionalidades dos modelos de linguagem da família BERT, que encontra a palavra mais apropriada que se encaixa na posição mascarada de uma frase (modelagem de linguagem mascarada). É útil para capturar quais palavras-chave são usadas para indicar ameaças na natureza”, explicaram.

Os resultados do DarkBERT neste teste em particular foram melhores do que os de outras variantes testadas.

Conclusão

Os pesquisadores descobriram que o DarkBERT supera outros modelos de linguagem pré-treinados em todas as tarefas que foram apresentadas, e concluíram que ele
“mostra promessa em sua aplicabilidade em pesquisas futuras no domínio da dark web e na indústria de ameaças cibernéticas”, embora mais trabalho e ajuste fino sejam necessários para torná-lo mais amplamente aplicável.

“No futuro, também planejamos melhorar o desempenho de modelos de linguagem pré-treinados específicos do domínio da dark web usando arquiteturas mais recentes e rastrear dados adicionais para permitir a construção de um modelo de linguagem multilíngue”, acrescentaram.

FONTE: HELPNET SECURITY

POSTS RELACIONADOS