A Samsung proibiu alguns usos do ChatGPT, a Ford Motor e a Volkswagen fecharam sua empresa de carros autônomos, e uma carta pedindo uma pausa no treinamento de sistemas de IA mais potentes reuniu mais de 25.000 assinaturas.
Reações exageradas? Não, diz Davi Ottenheimer, vice-presidente de confiança e ética digital da Inrupt, startup criadora de soluções de identidade digital e segurança. É necessária uma pausa para desenvolver melhores abordagens para os testes, não apenas da segurança, mas da segurança dos modelos de aprendizado de máquina e inteligência artificial. Estes incluem ChatGPT, veículos autônomos e drones autônomos.
Um fluxo constante de pesquisadores e tecnólogos de segurança já encontrou maneiras de contornar as proteções colocadas nos sistemas de IA, mas a sociedade precisa ter discussões mais amplas sobre como testar e melhorar a segurança, diz Ottenheimer, que fará uma apresentação sobre o tema na Conferência RSA em São Francisco na próxima semana.
“Especialmente a partir do contexto de um pentest, eu deveria entrar e basicamente avaliar [um sistema de IA] para segurança, mas o que está faltando é que não estamos tomando uma decisão sobre se é seguro, se o aplicativo é aceitável”, diz ele. A segurança de um servidor, por exemplo, não fala se o sistema é seguro “se você estiver executando o servidor de uma maneira que é inaceitável … e precisamos chegar a esse nível com a IA.”
Com a introdução do ChatGPT em novembro, o interesse em inteligência artificial e aprendizado de máquina – já aumentando devido a aplicações no campo da ciência de dados – decolou. As capacidades sinistras do modelo de linguagem grande (LLM) para aparentemente entender a linguagem humana e sintetizar respostas coerentes levaram a um aumento nas aplicações propostas com base na tecnologia e em outras formas de IA. O ChatGPT já foi usado para triagem de incidentes de segurança, e um LLM mais avançado forma o núcleo do Security Copilot da Microsoft.
No entanto, o transformador pré-treinado generativo (GPT) é apenas uma forma de modelo de IA, e todos eles podem ter problemas significativos com viés, falsos positivos e outros problemas.
Explorar robôs é fácil
Essas deficiências, e uma falta geral de explicabilidade nos modelos de IA, significam que qualquer modelo pode ser atacado de maneiras que os criadores podem não ter imaginado, dirá Ottenheimer, da Inrupt, em sua apresentação na RSA Conference, Pentesting AI: How to Hunt a Robot. Se os modelos de IA forem rapidamente adotados sem um estudo adequado, eles podem chegar a uma aplicação crítica, onde podem ser atacados ou falhar espetacularmente, diz ele.
“Na verdade, é super fácil fazê-los falhar”, diz Ottenheimer. “A maioria das pessoas está olhando para isso como: ‘Posso enganá-lo nesta área?‘, mas essa não é a discussão que você deveria estar tendo, porque – oh meu deus – você está usando essa tecnologia de uma maneira totalmente inadequada.”
Pesquisas recentes demonstram como a IA pode ser simples. Pedir ao ChatGPT para imitar pessoas específicas, também conhecido como atribuir-lhe uma persona, pode resultar no modelo de IA quebrando seus guardrails, de acordo com uma equipe de pesquisadores do Allen Institute for AI, do Georgia Institute of Technology e da Universidade de Princeton. Os pesquisadores fizeram com que o ChatGPT assumisse uma variedade de personas, e até mesmo uma persona geral – como uma “pessoa má” – pode resultar no modelo de linguagem grande usando linguagem tóxica, afirmou a equipe em um artigo publicado em 11 de abril.
Com uma infinidade de produtos já enviados usando o ChatGPT, os pesquisadores alertam que isso pode resultar inesperadamente em comportamento prejudicial.
“Esperamos que nossas descobertas inspirem a comunidade de IA mais ampla a repensar a eficácia das atuais grades de proteção de segurança e desenvolver melhores técnicas que levem a sistemas de IA robustos, seguros e confiáveis”, afirmaram os pesquisadores em seu artigo.
Hora de desligar a tecnologia e fazer uma redefinição
Ottenheimer divide os testes de IA em seis categorias com base na tríade tradicional da CIA: confidencialidade, integridade e disponibilidade. Falsos positivos, por exemplo, podem levar a custos significativos para a sociedade, como os socorristas de emergência que são sobrecarregados porque os relógios Apple dos esquiadores estão discando 9-1-1 devido a corridas chocantes ladeira abaixo. A pesquisa acadêmica sobre o uso de personas para fazer o jailbreak das proteções de conteúdo do ChatGPT é semelhante a outras pesquisas, que criaram uma persona DAN (Do Anything Now) que permitiu que os usuários ignorassem as salvaguardas.
Empresas e pesquisadores precisam encontrar maneiras de fazer uma redefinição rígida de tais sistemas, para purgar quaisquer insumos tóxicos, mas ao mesmo tempo ensinar a IA a tomar tais ações no futuro.
“Você realmente tem que redefini-lo, de modo que os danos não aconteçam novamente, ou você tem que redefini-lo de uma forma que os danos possam ser desfeitos”, diz Ottenheimer.
Finalmente, a ameaça à privacidade é uma ameaça significativa, bem como grandes modelos de linguagem usam um vasto conjunto de dados, normalmente copiado da Internet, sem as permissões dos editores desses dados. A Itália deu à OpenAI até o final de abril para encontrar maneiras de proteger os dados das pessoas e permitir a correção ou exclusão. E os esforços podem aumentar à medida que o Comité Europeu para a Proteção de Dados (CEPD) lançou um grupo de trabalho dedicado a estudar a questão e a promover a cooperação.
FONTE: DARK READING