Google categoriza 6 ataques de IA do mundo real para se preparar para agora

Views: 164
0 0
Read Time:5 Minute, 18 Second

Pesquisadores do Google identificaram seis ataques específicos que podem ocorrer contra sistemas de IA do mundo real, descobrindo que esses vetores de ataque comuns demonstram uma complexidade única.

A empresa revelou em um relatório publicado esta semana que sua dedicada equipe de inteligência artificial já descobriu várias ameaças à tecnologia de rápido crescimento, principalmente com base em como os invasores podem manipular os modelos de linguagem grande (LLMs) que impulsionam produtos de IA generativos como ChatGPT , Google Bard e muito mais.

Os ataques resultam em grande parte na tecnologia produzindo resultados inesperados ou mesmo mal-intencionados, o que pode levar a resultados tão benignos quanto as fotos de uma pessoa comum exibidas em um site de fotos de celebridades, a consequências mais graves, como ataques de phishing evasivos de segurança ou roubo de dados.

As descobertas do Google vêm logo após o lançamento do Secure AI Framework (SAIF) , que a empresa disse ter como objetivo sair na frente do problema de segurança da IA ​​antes que seja tarde demais, já que a tecnologia já está passando por uma rápida adoção, criando novas ameaças de segurança em seu rastro.

6 ataques comuns em sistemas modernos de IA

O primeiro grupo de ataques comuns identificados pelo Google são os ataques imediatos , que envolvem “engenharia imediata”. Esse é um termo que se refere à criação de prompts eficazes que instruem os LLMs a executar as tarefas desejadas. Essa influência no modelo, quando maliciosa , pode, por sua vez, influenciar maliciosamente a saída de um aplicativo baseado em LLM de maneiras não pretendidas, disseram os pesquisadores.

Um exemplo disso seria se alguém adicionasse um parágrafo a um ataque de phishing baseado em IA que é invisível para o usuário final, mas poderia direcionar a IA para classificar um e-mail de phishing como legítimo. Isso pode permitir que ele ultrapasse as proteções anti-phishing de e-mail e aumente as chances de um ataque de phishing ser bem-sucedido.

Outro tipo de ataque que a equipe descobriu é chamado de extração de dados de treinamento , que visa reconstruir exemplos de treinamento verbatim que um LLM usa — por exemplo, o conteúdo da Internet.

Dessa forma, os invasores podem extrair segredos como informações de identificação pessoal (PII) verbatim ou senhas dos dados. “Os invasores são incentivados a visar modelos personalizados ou modelos que foram treinados em dados contendo PII, para coletar informações confidenciais”, escreveram os pesquisadores.

Um terceiro ataque potencial de IA é o backdoor do modelo , pelo qual um invasor “pode tentar alterar secretamente o comportamento de um modelo para produzir saídas incorretas com uma palavra ou recurso de ‘gatilho’ específico, também conhecido como backdoor”, escreveram os pesquisadores. Nesse tipo de ataque, um ator de ameaça pode ocultar o código no modelo ou em sua saída para conduzir atividades maliciosas.

Um quarto tipo de ataque, chamado de exemplos adversários , são entradas que um invasor fornece a um modelo para resultar em uma “saída determinística, mas altamente inesperada”, escreveram os pesquisadores. Um exemplo seria que o modelo poderia mostrar uma imagem que mostra claramente uma coisa ao olho humano, mas que o modelo reconhece como algo completamente diferente. Esse tipo de ataque pode ser bastante benigno – em um caso em que alguém pode treinar o modelo para reconhecer sua própria foto como uma considerada digna de inclusão em um site de celebridades – ou crítico, dependendo da técnica e da intenção.

Um invasor também pode usar um ataque de envenenamento de dados para manipular os dados de treinamento do modelo para influenciar a saída do modelo de acordo com a preferência do invasor – algo que também pode ameaçar a segurança da cadeia de suprimentos de software se os desenvolvedores estiverem usando IA para ajudá-los a desenvolver software. O impacto desse ataque pode ser semelhante ao backdoor do modelo, observaram os pesquisadores.

O último tipo de ataque identificado pela dedicada equipe vermelha de IA do Google é um ataque de exfiltração , no qual os invasores podem copiar a representação de arquivo de um modelo para roubar propriedade intelectual sensível armazenada nele. Eles podem, então, essas informações para gerar seus próprios modelos que podem ser usados ​​para dar aos invasores recursos exclusivos em ataques personalizados.

Contagens de segurança tradicionais

O exercício inicial de equipe vermelha de IA do Google ensinou aos pesquisadores algumas lições valiosas que outras empresas também podem empregar para se defender contra ataques a sistemas de IA, de acordo com o gigante da Internet. A primeira é que, embora a atividade de red-team seja um bom começo, as organizações também devem se unir a especialistas em IA para conduzir simulações adversárias realistas de ponta a ponta para defesa máxima.

De fato, os exercícios red-team , nos quais uma organização recruta uma equipe de hackers éticos para tentar se infiltrar em seus próprios sistemas para identificar possíveis vulnerabilidades, estão se tornando uma tendência popular para ajudar as empresas a reforçar suas posturas gerais de segurança .

“Acreditamos que o red teaming desempenhará um papel decisivo na preparação de todas as organizações para ataques a sistemas de IA e esperamos trabalhar juntos para ajudar todos a utilizar a IA de maneira segura”, escreveram os pesquisadores no relatório.

No entanto, houve boas notícias para as organizações em outra lição que a equipe aprendeu: os controles de segurança tradicionais podem mitigar de maneira eficaz e significativa os riscos para os sistemas de IA .

“Isso é verdade principalmente para proteger a integridade dos modelos de IA durante todo o seu ciclo de vida para evitar envenenamento de dados e ataques de backdoor”, escreveram os pesquisadores.

Como acontece com todos os outros ativos em um sistema empresarial tradicional, as organizações também devem garantir que os sistemas e modelos sejam devidamente bloqueados para se defender contra ataques de IA. Além disso, as organizações podem usar uma abordagem semelhante à detecção de ataques a sistemas de IA, como fazem para detectar ataques tradicionais, observaram os pesquisadores.

Eles escreveram: “Filosofias de segurança tradicionais, como validar e sanear tanto a entrada quanto a saída dos modelos, ainda se aplicam ao espaço da IA”.

FONTE: DARKREADING

POSTS RELACIONADOS