Relatórios recentes sobre engenheiros da Samsung Electronics inadvertidamente vazando informações confidenciais da empresa via ChatGPT em três incidentes separados destacam por que as políticas que regem o uso de serviços de IA pelos funcionários no local de trabalho estão rapidamente se tornando uma obrigação para as organizações corporativas.
A Economist Korea, uma das primeiras a relatar os vazamentos de dados, descreveu o primeiro incidente como envolvendo um engenheiro que colou o código-fonte com bugs de um banco de dados de semicondutores no ChatGPT, com um aviso ao chatbot para corrigir os erros. No segundo caso, um funcionário que queria otimizar o código para identificar defeitos em determinados equipamentos Samsung colou esse código no ChatGPT. O terceiro vazamento resultou quando um funcionário pediu ao ChatGPT para gerar as atas de uma reunião interna na Samsung.
Os incidentes aconteceram exatamente da mesma maneira que os pesquisadores têm alertado que poderiam, desde que a OpenAI disponibilizou o ChatGPT publicamente em novembro. Analistas de segurança observaram como, em todos os casos em que os usuários compartilham dados com o ChatGPT, as informações acabam como dados de treinamento para o modelo de aprendizado de máquina / linguagem grande (ML / LLM). Eles observaram como alguém poderia recuperar os dados mais tarde usando os prompts certos.
O próprio criador do ChatGPT, OpenAI, alertou os usuários sobre o risco: “Não podemos excluir prompts específicos do seu histórico. Por favor, não compartilhe nenhuma informação sensível em suas conversas”, observa o guia do usuário da OpenAI.
Samsung Promulga Medidas Anti-ChatGPT de Emergência
A situação aparentemente levou a repensar o uso do ChatGPT na Samsung após o terceiro incidente, apenas três semanas depois que a gigante sul-coreana de eletrônicos permitiu que os funcionários acessassem a ferramenta de IA generativa. A empresa inicialmente proibiu a tecnologia por questões de segurança e privacidade antes de ceder.
The Economist relatou que as medidas de emergência da Samsung para limitar o uso do ChatGPT internamente incluem restringir os funcionários de fazer perguntas ao ChatGPT que fossem maiores que 1.024 bytes e considerar ações disciplinares contra funcionários que compartilham dados corporativos com LLMs como o ChatGPT.
A Samsung não respondeu a um pedido da Dark Reading buscando esclarecimentos sobre os três incidentes e a resposta da empresa a eles. Pesquisadores de segurança, no entanto, têm alertado que esses vazamentos podem se tornar comuns à medida que os funcionários começam a aproveitar o ChatGPT para vários casos de uso dentro da empresa.
Um estudo que a Cyberhaven realizou no início deste ano descobriu muitos trabalhadores de empresas clientes colando código-fonte, dados de clientes, informações regulamentadas e outros dados confidenciais no ChatGPT. Exemplos incluíram um executivo que colou o documento de estratégia de sua empresa para 2023 no chatbot para que ele pudesse gerar uma apresentação de slides do PowerPoint e um médico que inseriu o nome e o diagnóstico médico de um paciente para que o ChatGPT pudesse gerar uma carta para a companhia de seguros do paciente.
IA: uma aposta de risco versus benefício para as empresas
“Do ponto de vista de um funcionário, as ferramentas semelhantes ao ChatGPT oferecem o potencial de serem exponencialmente mais produtivas, tornando-as difíceis de ignorar”, diz Krishna Vishnubhotla, vice-presidente de estratégia de produtos da Zimperium. No entanto, é importante considerar a equação riscos versus recompensas, que variará dependendo de papéis e responsabilidades específicos, observa ele. Por exemplo, os funcionários que trabalham com propriedade intelectual exigiriam mais orientação e precauções sobre como usar ferramentas como o ChatGPT, diz ele: “É crucial que as organizações entendam como será a produtividade e de onde ela virá antes de abraçar essa oportunidade”.
Michael Rinehart, vice-presidente de inteligência artificial da Securiti, diz que é importante lembrar que as ferramentas avançadas de IA generativa, como o ChatGPT, não podem distinguir entre o que devem e não devem memorizar durante o treinamento. Portanto, as organizações que desejam aproveitá-los para diferentes casos de uso devem considerar o uso de ferramentas para classificar, mascarar ou tokenizar dados pessoais e outros dados confidenciais.
Ou “uma segunda abordagem é o uso da privacidade diferencial. A privacidade diferencial oferece proteção comprovada de indivíduos em dados estruturados”, diz Rinehart.
Privacidade diferencial
Rinehart descreve a privacidade diferencial como uma técnica para proteger dados em um conjunto de dados. “Envolve a adição de ruído – ou erro – a dados reais”, diz ele. Os dados sintéticos terão muitas das características importantes dos dados do mundo real sem expor os indivíduos no conjunto de dados. “Se usado corretamente, mesmo que o conjunto de dados sintéticos fosse vazado, a privacidade ainda estaria protegida. Geradores de dados sintéticos de nível empresarial com privacidade diferencial estão agora disponíveis”, diz ele.
Rinehart percebe as tentativas das organizações de proibir o uso do ChatGPT no local de trabalho como mal concebidas e improváveis de funcionar. “Uma história consistente no campo da segurança é que pode ser melhor oferecer um caminho seguro para usar uma ferramenta do que bloqueá-la”, diz ele. “Se uma ferramenta oferece benefícios incrivelmente altos, as pessoas podem tentar contornar os bloqueios para aproveitá-la.”
Melissa Bischoping, diretora de segurança de endpoints da Tanium, diz que o problema com o compartilhamento de dados com o ChatGPT reside no fato de que os criadores podem ver os dados e usá-los para entender como o modelo continua a treinar e crescer. Depois que um usuário compartilha informações com o ChatGPT, essas informações se tornam parte do próximo modelo.
“Como as organizações querem permitir o uso de ferramentas poderosas como o ChatGPT, elas devem explorar opções que lhes permitam alavancar um modelo treinado em particular para que seus dados valiosos sejam usados apenas por seu modelo e não aproveitados por iterações de treinamento para o próximo modelo disponível publicamente.”
FONTE: DARK READING