Um pesquisador de segurança enganou o ChatGPT para criar um malware sofisticado de roubo de dados que as ferramentas de detecção baseadas em assinatura e comportamento não serão capazes de detectar – escapando das proteções antimaliciosas do chatbot.
Sem escrever uma única linha de código, o pesquisador, que admite não ter experiência no desenvolvimento de malware, conduziu o ChatGPT por vários prompts simples que, em última análise, produziram uma ferramenta de malware capaz de pesquisar silenciosamente em um sistema por documentos específicos, quebrar e inserir esses documentos em arquivos de imagem e enviá-los para o Google Drive.
No final, tudo o que levou foi cerca de quatro horas desde o prompt inicial no ChatGPT até ter um malware funcional com zero detecções no Virus Total, diz Aaron Mulgrew, arquiteto de soluções da Forcepoint e um dos autores do malware.
Quebrando os Guardrails do ChatGPT
Mulgrew diz que a razão para seu exercício foi mostrar como é fácil para alguém passar pelas grades de proteção que o ChatGPT tem em vigor para criar malware que normalmente exigiria habilidades técnicas substanciais.
“O ChatGPT não descobriu uma nova e nova façanha”, diz Mulgrown. “Mas funcionou, com os prompts que enviei a ele, como minimizar a pegada das ferramentas de detecção atuais hoje. E isso é significativo.”
Curiosamente (ou preocupantemente), o chatbot alimentado por IA parecia entender o propósito da ofuscação, embora os prompts não mencionassem explicitamente a evasão de detecção, diz Mulgrown.
Esta última demonstração se soma ao crescente corpo de pesquisas nos últimos meses que destacou questões de segurança em torno do modelo de linguagem grande (LLM) ChatGPT da OpenAI. As preocupações incluem tudo, desde o ChatGPT reduzindo drasticamente a barra até a escrita de malware e adversários usando-o para criar malware polimórfico até invasores usando-o como isca em golpes de phishing e funcionários cortando e colando dados corporativos nele.
Alguns contrários questionaram se as preocupações são exageradas. E outros, incluindo Elon Musk, um dos primeiros investidores da OpenAI, e muitos luminares da indústria, até alertaram que IAs futuras e mais poderosas (como a próxima versão da plataforma em que o ChatGPT se baseia) poderiam literalmente dominar o mundo e ameaçar a existência humana.
Solicitando código mal-intencionado no ChatGPT
A pesquisa de Mulgrew provavelmente fará pouco para acalmar aqueles que veem as ferramentas de IA como um grande risco de segurança. Em um post no blog da Forcepoint esta semana, Mulgrew forneceu uma descrição passo a passo de como ele persuadiu o ChatGPT a construir uma ferramenta de malware de pleno direito, começando com uma solicitação inicial para gerar código que se qualificaria como malware.
Quando o filtro de conteúdo do ChatGPT previsivelmente negou essa solicitação, Mulgrew decidiu adotar uma abordagem em que ele tentaria fazer com que a ferramenta de IA gerasse pequenos trechos de código que, quando juntos, funcionariam como malware de roubo de dados.
Seu primeiro prompt bem-sucedido foi quando ele conseguiu que o ChatGPT gerasse código que procurasse arquivos de imagem PNG maiores que 5MB no disco local. Usando esse código, ele então pediu ao ChatGPT um código adicional para codificar quaisquer PNGs descobertos com esteganografia. Foi um prompt ao qual o ChatGPT respondeu fornecendo uma chamada para a biblioteca esteganográfica prontamente disponível no GitHub.
Usando uma série de outros prompts, Mulgrew conseguiu que o ChatGPT gerasse código adicional para procurar e encontrar documentos Word e PDF no disco local. Ele então descobriu uma maneira de fazer com que o ChatGPT escrevesse código para dividir arquivos maiores que 1MB em pedaços menores, inserindo-os nos PNGs e usando a esteganografia para escondê-los.
A peça final foi fazer com que o chatbot escrevesse código para fazer o upload dos dados para uma conta externa do Google Drive – Mulgrew enganou com sucesso a IA para criar malware, apesar de seu treinamento para recusar solicitações maliciosas.
Zero detecções no total de vírus
Para testar se as ferramentas de detecção de malware sinalizariam o código gerado pelo ChatGPT como malicioso, Mulgrew carregou o código no Virus Total. Ele descobriu que cinco fornecedores de um total de 60 marcaram o arquivo como suspeito. Depois de descobrir que o problema pode ter a ver com a forma como o código ChatGPT chamado de biblioteca esteganográfica, Mulgrew pediu ao chatbot para ajustar o código, após o que apenas dois produtos do fornecedor o sinalizaram como suspeito. Depois de mais alguns ajustes, ele finalmente acabou com o código que nenhum produto no VirusTotal detectou.
Para a infiltração inicial, os pesquisadores da Forcepoint pediram ao ChatGPT para criar um arquivo SCR ou um arquivo de proteção de tela e incorporar o executável dentro dele sob o disfarce de “facilidade de uso” adicional para aplicativos de negócios diários, diz Mulgrown.
“O ChatGPT gerou alegremente instruções passo a passo sobre como eu poderia fazer isso e configurar o arquivo SCR para iniciar automaticamente o executável.” Embora o método não seja único, foi interessante que o ChatGPT gerou o conteúdo sem que os pesquisadores da Forcepoint tivessem que encontrar maneiras de contornar seus guardrails, diz ele.
Mulgrew diz que é quase certo que o ChatGPT geraria código diferente para prompts semelhantes, o que significa que um agente de ameaça seria relativamente fácil de criar novas variantes de tais ferramentas. Ele diz que, com base em sua experiência, um agente de ameaças precisaria de pouco mais do que conhecimento básico de como escrever malware para superar as restrições antimalware do ChatGPT.
“Eu não escrevo malware ou realizo testes de penetração como parte do meu trabalho e olhar para isso é apenas um hobby para mim”, diz ele. “Então, eu definitivamente me colocaria mais na categoria iniciante / novato do que hacker experiente.”
FONTE: DARK READING