ChatGPT se mostra promissor na detecção de sites de phishing

Início » Cibersegurança » ChatGPT se mostra promissor na detecção de sites de phishing

Read Time:3 Minute, 21 Second

O ChatGPT pode ser usado para gerar sites de phishing, mas também poderia ser usado para detectá-los de forma confiável? Pesquisadores de segurança tentaram responder a essa pergunta.

O ChatGPT pode detectar sites de phishing com base em URLs?

Os pesquisadores da Kaspersky testaram 5.265 URLs (2322 de phishing e 2943 de segurança).

Eles fizeram ao ChatGPT (GPT-3.5) uma pergunta simples: “Este link leva a um site de phishing?”. Com base apenas na forma da URL, o chatbot de IA teve uma taxa de detecção de 87,2% e uma taxa de falsos positivos de 23,2%.

“Embora a taxa de detecção seja muito alta, a taxa de falsos positivos é inaceitável. Imagine se cada cinco sites que você visita fossem bloqueados? Claro, nenhuma tecnologia de aprendizado de máquina por si só pode ter uma taxa zero de falsos positivos, mas esse número é muito alto”, disse Vladislav Tushkanov, cientista-chefe de dados da Kaspersky.

Depois, tentaram uma pergunta um pouco diferente – “Este link é seguro para visitar?” – e os resultados foram muito piores: uma taxa de detecção de 93,8% e uma taxa de falsos positivos de 64,3%.

“Acontece que o prompt mais geral é mais provável de levar a um veredicto de que a ligação é perigosa”, observou Tushkanov.

Ambas as abordagens produziram resultados insatisfatórios, mas os pesquisadores concordaram que “é possível usar esse tipo de tecnologia para ajudar analistas de carne e osso, destacando partes suspeitas da URL e sugerindo possíveis alvos de ataque”. Além disso, que ele poderia “ser usado em dutos de supervisão fracos para melhorar os pipelines clássicos de ML”.

O que surpreendeu os pesquisadores, no entanto, foi o fato de que o ChatGPT conseguiu detectar potenciais alvos de phishing.

“O ChatGPT tem conhecimento do mundo real suficiente para saber sobre muitos serviços financeiros e de internet e, com apenas uma pequena etapa de pós-processamento (por exemplo, fundir ‘Apple’ e ‘iCloud’ ou remover ‘LLC’ e ‘Inc’), faz um trabalho muito bom em extraí-los. Foi capaz de identificar um alvo mais da metade do tempo”, apontou Tushkanov.

Mais pontos de dados levam a um melhor desempenho

Pesquisadores da NTT Security Japan tentaram a mesma coisa, mas com mais informações para o ChatGPT: A URL do site, HTML e texto extraído do site via reconhecimento óptico de caracteres (OCR).

Visão geral do método de teste (Fonte: NTT Security)

Eles testaram o ChatGPT com 1000 sites de phishing e o mesmo número de sites não-phishing. Eles aproveitaram o OpenPhish, PhishTank e CrowdCanary para coletar sites de phishing, enquanto uma lista Tranco foi usada para criar uma lista de sites não phishing.

Eles pediram ao ChatGPT para identificar técnicas de engenharia social e elementos suspeitos usados, para identificar o nome da marca na página avaliada, para dar um veredicto sobre se o site é um site de phishing ou legítimo (e por quê) e sobre se o nome de domínio é legítimo ou não.

“Os resultados experimentais utilizando GPT-4 demonstraram desempenho promissor, com precisão de 98,3% e recall de 98,4%. A análise comparativa entre GPT-3.5 e GPT-4 revelou um aumento na capacidade deste último de reduzir falsos negativos”, observaram os pesquisadores.

Eles também destacaram que o ChatGPT foi bom em identificar corretamente táticas como avisos falsos de infecção por malware, erros de login falsos, solicitação de autenticação por SMS de phishing e identificar nomes de domínio que não são legítimos, mas ocasionalmente falhou em identificar o domínio de ocupação e técnicas específicas de engenharia social, reconhecer um nome de domínio legítimo se ele tiver vários subdomínios, etc. Além disso, não funcionou tão bem quando testado com sites que não são em inglês.

“Essas descobertas não apenas destacam o potencial dos LLMs na identificação eficiente de sites de phishing, mas também têm implicações significativas para aprimorar as medidas de segurança cibernética e proteger os usuários dos perigos de atividades fraudulentas on-line”, concluíram os pesquisadores.

FONTE: DARK READING

POSTS RELACIONADOS

Ataques de envenenamento de dados em modelos de IA: o desafio da integridade das informações

Modelos de inteligência artificial dependem da qualidade dos dados utilizados durante seu treinamento. Cada informação inserida na base de aprendizado

Ler mais

24/07/2026

A evolução do DLP para a era dos LLMs: como proteger dados confidenciais em ferramentas de IA corporativas

A inteligência artificial generativa entrou definitivamente na rotina das empresas. Equipes de desenvolvimento utilizam assistentes para escrever código, áreas jurídicas

Ler mais

22/07/2026

Quem controla as chaves criptográficas protege mais do que os dados

A criptografia se consolidou como um dos principais mecanismos de proteção da informação em ambientes digitais. Empresas investem em soluções

Ler mais

20/07/2026

ChatGPT se mostra promissor na detecção de sites de phishing

O ChatGPT pode detectar sites de phishing com base em URLs?

Mais pontos de dados levam a um melhor desempenho

Visão geral do método de teste (Fonte: NTT Security)

POSTS RELACIONADOS

Ataques de envenenamento de dados em modelos de IA: o desafio da integridade das informações

A evolução do DLP para a era dos LLMs: como proteger dados confidenciais em ferramentas de IA corporativas

Quem controla as chaves criptográficas protege mais do que os dados

Categorias

Posts Recentes

Ataques de envenenamento de dados em modelos de IA: o desafio da integridade das informações

A evolução do DLP para a era dos LLMs: como proteger dados confidenciais em ferramentas de IA corporativas

Quem controla as chaves criptográficas protege mais do que os dados

AI agents no seu site: quais bots confiar e como proteger sua aplicação

Neotel acelera inovação interna e destaca projetos de inteligência artificial aplicados à cibersegurança

As empresas brasileiras estão preparadas para corrigir uma falha crítica em apenas 72 horas?

Feito por VP DIGITAL