DarkBERT pode ajudar a automatizar a mineração na dark web para inteligência de ameaças cibernéticas

Início » Cibersegurança » DarkBERT pode ajudar a automatizar a mineração na dark web para inteligência de ameaças cibernéticas

Read Time:3 Minute, 43 Second

Pesquisadores desenvolveram o DarkBERT, um modelo de linguagem pré-treinado em dados da dark web, para ajudar os profissionais de segurança cibernética a extrair inteligência de ameaças cibernéticas (CTI) do submundo virtual da Internet.

Processo de pré-treinamento do DarkBERT e cenários de caso de uso avaliados (Fonte: KAIST/S2W)

DarkBERT: Um modelo de linguagem para a dark web

Há algum tempo, pesquisadores e especialistas em segurança cibernética têm aproveitado o processamento de linguagem natural (PNL) para entender e lidar melhor com o cenário de ameaças. As ferramentas de PNL tornaram-se parte integrante da pesquisa em CTI.

A dark web, conhecida como um “playground” de indivíduos envolvidos em atividades ilegais, apresenta desafios distintos quando se trata de extrair e analisar CTI em escala.

Uma equipe de pesquisadores do Instituto Avançado de Ciência e Tecnologia da Coreia (KAIST) e da empresa de inteligência de dados S2W decidiu testar se um modelo de linguagem personalizado poderia ser útil, então eles criaram o DarkBERT, que é pré-treinado em dados da dark web (ou seja, a linguagem específica usada nesse domínio).

Cenários potenciais de caso de uso

O DarkBERT passou por um extenso treinamento prévio em textos em inglês – aproximadamente 6,1 milhões de páginas encontradas na dark web. (Os pesquisadores filtraram páginas sem sentido e irrelevantes.)

Sua eficácia foi então comparada a dois modelos populares de PNL – BERT, um modelo de linguagem mascarada introduzido pelo Google em 2018, e RoBERTa, uma abordagem de IA desenvolvida pelo Facebook em 2019.

Os pesquisadores testaram o DarkBERT para uso em três casos de uso relacionados à segurança cibernética:

1. Detecção de site de vazamento de ransomware

Gangues de ransomware usam a dark web para criar sites de vazamento, onde publicam dados confidenciais de organizações que se recusaram a pagar o resgate.

Os três modelos de linguagem foram encarregados de identificar e classificar esses sites, e o DarkBERT superou os demais, “demonstrando [suas vantagens] na compreensão da linguagem de fóruns de hackers subterrâneos na dark web”.

“O DarkBERT com entrada pré-processada tem um desempenho melhor do que aquele com entrada bruta, o que destaca a importância da etapa de pré-processamento de texto em termos de redução de informações supérfluas”, observaram os pesquisadores.

2. Detecção de rosca notável

Os fóruns da dark web são comumente usados para trocar informações ilícitas, e os pesquisadores de segurança geralmente os monitoram em busca de tópicos notáveis, para que possam mitigar os riscos associados. Mas existem muitos fóruns da dark web e um grande número de postagens em fóruns, e ser capaz de automatizar a descoberta e a avaliação da notoriedade dos tópicos pode reduzir significativamente sua carga de trabalho. Novamente, o principal problema é a linguagem específica usada na dark web.

“Devido à dificuldade da tarefa em si, o desempenho geral do DarkBERT para detecção de threads notáveis do mundo real não é tão bom em comparação com os das avaliações e tarefas anteriores”, descobriram os pesquisadores.

“No entanto, o desempenho do DarkBERT em relação a outros modelos de linguagem mostrados aqui é significativo e mostra seu potencial em tarefas de domínio da dark web. Ao adicionar mais amostras de treinamento e incorporar recursos adicionais, como informações sobre o autor, acreditamos que o desempenho da detecção pode ser melhorado ainda mais.”

3. Inferência de palavras-chave de ameaça

Os pesquisadores usaram a função de máscara de preenchimento para identificar palavras-chave ligadas a (neste caso) ameaças e vendas de drogas na dark web.

“A máscara de preenchimento é uma das principais funcionalidades dos modelos de linguagem da família BERT, que encontra a palavra mais apropriada que se encaixa na posição mascarada de uma frase (modelagem de linguagem mascarada). É útil para capturar quais palavras-chave são usadas para indicar ameaças na natureza”, explicaram.

Os resultados do DarkBERT neste teste em particular foram melhores do que os de outras variantes testadas.

Conclusão

Os pesquisadores descobriram que o DarkBERT supera outros modelos de linguagem pré-treinados em todas as tarefas que foram apresentadas, e concluíram que ele
“mostra promessa em sua aplicabilidade em pesquisas futuras no domínio da dark web e na indústria de ameaças cibernéticas”, embora mais trabalho e ajuste fino sejam necessários para torná-lo mais amplamente aplicável.

“No futuro, também planejamos melhorar o desempenho de modelos de linguagem pré-treinados específicos do domínio da dark web usando arquiteturas mais recentes e rastrear dados adicionais para permitir a construção de um modelo de linguagem multilíngue”, acrescentaram.

FONTE: HELPNET SECURITY

POSTS RELACIONADOS

Deepfakes de voz e a nova fronteira da fraude no setor público

*Por José Ricardo Maia Moraes O Brasil deixou de ser apenas um observador da inteligência artificial para enfrentar os impactos

Ler mais

25/05/2026

Prompt injection: por que esse ataque virou uma das maiores ameaças da IA generativa

A adoção acelerada de inteligência artificial generativa trouxe ganhos importantes de produtividade, automação e eficiência operacional para empresas de diferentes

Ler mais

20/05/2026

O maior risco da era pós-quântica pode estar na identidade digital, não na criptografia

A computação quântica deixou de ser um conceito distante para se tornar uma preocupação concreta nas estratégias de cibersegurança corporativa.

Ler mais

20/05/2026

DarkBERT pode ajudar a automatizar a mineração na dark web para inteligência de ameaças cibernéticas

Processo de pré-treinamento do DarkBERT e cenários de caso de uso avaliados (Fonte: KAIST/S2W)

DarkBERT: Um modelo de linguagem para a dark web

Cenários potenciais de caso de uso

1. Detecção de site de vazamento de ransomware

2. Detecção de rosca notável

3. Inferência de palavras-chave de ameaça

Conclusão

POSTS RELACIONADOS

Deepfakes de voz e a nova fronteira da fraude no setor público

Prompt injection: por que esse ataque virou uma das maiores ameaças da IA generativa

O maior risco da era pós-quântica pode estar na identidade digital, não na criptografia

Categorias

Posts Recentes

Deepfakes de voz e a nova fronteira da fraude no setor público

Prompt injection: por que esse ataque virou uma das maiores ameaças da IA generativa

O maior risco da era pós-quântica pode estar na identidade digital, não na criptografia

Harvest now, decrypt later: O dado que você protege hoje já pode pertencer ao seu adversário amanhã

Principais ameaças cibernéticas para empresas e governos em 2026 até o momento

Criptografia em nuvem: o que o provedor cobre e o que ainda é responsabilidade da empresa

Feito por VP DIGITAL