As belas mentiras do aprendizado de máquina em segurança

Views: 511
0 0
Read Time:5 Minute, 49 Second

Ao contrário do que você pode ter lido, o aprendizado de máquina (ML) não é um pó mágico. Em geral, o ML é bom para problemas de escopo restrito com grandes conjuntos de dados disponíveis e onde os padrões de interesse são altamente repetíveis ou previsíveis. A maioria dos problemas de segurança não requer nem se beneficia do ML. Muitos especialistas, incluindo o pessoal do Google , sugerem que, ao resolver um problema complexo, você deve esgotar todas as outras abordagens antes de tentar o ML.

ML é uma ampla coleção de técnicas estatísticas que nos permite treinar um computador para estimar uma resposta a uma pergunta, mesmo quando não codificamos explicitamente a resposta correta. Um sistema de ML bem projetado e aplicado ao tipo certo de problema pode revelar insights que não seriam alcançados de outra forma.

Um exemplo de ML bem-sucedido é o processamento de linguagem natural (NLP). A PNL permite que os computadores “compreendam” a linguagem humana, incluindo coisas como expressões idiomáticas e metáforas. De muitas maneiras, a segurança cibernética enfrenta os mesmos desafios que o processamento de linguagem. Os invasores podem não usar expressões idiomáticas, mas muitas técnicas são análogas aos homônimos, palavras que têm a mesma grafia ou pronúncia, mas significados diferentes. Algumas técnicas de invasores também se assemelham a ações que um administrador de sistema pode executar por motivos perfeitamente benignos.

Os ambientes de TI variam entre as organizações em propósito, arquitetura, priorização e tolerância a riscos. É impossível criar algoritmos, ML ou não, que abordem amplamente os casos de uso de segurança em todos os cenários. É por isso que os aplicativos mais bem-sucedidos de ML em segurança combinam vários métodos para resolver um problema muito específico. Bons exemplos incluem filtros de spam, mitigação de DDoS ou bot e detecção de malware.

Lixo dentro, lixo fora

O maior desafio no ML é a disponibilidade de dados relevantes e utilizáveis ​​para resolver seu problema. Para ML supervisionado, você precisa de um conjunto de dados grande e rotulado corretamente. Para construir um modelo que identifique fotos de gatos, por exemplo, você treina o modelo em muitas fotos de gatos rotulados como “gato” e muitas fotos de coisas que não são gatos rotuladas como “não gato”. Se você não tiver fotos suficientes ou elas estiverem mal rotuladas, seu modelo não funcionará bem.

Em segurança, um caso de uso de ML supervisionado bem conhecido é a detecção de malware sem assinatura. Muitos fornecedores de plataformas de proteção de endpoint (EPP) usam ML para rotular grandes quantidades de amostras maliciosas e benignas, treinando um modelo sobre “como é o malware”. Esses modelos podem identificar corretamente malware mutante evasivo e outros truques em que um arquivo é alterado o suficiente para evitar uma assinatura, mas permanece malicioso. ML não corresponde à assinatura. Ele prevê malícia usando outro conjunto de recursos e muitas vezes pode detectar malware que os métodos baseados em assinatura não detectam.

No entanto, como os modelos de ML são probabilísticos, há uma compensação. O ML pode detectar malware que as assinaturas não detectam, mas também pode detectar malware que as assinaturas detectam. É por isso que as ferramentas modernas de EPP usam métodos híbridos que combinam ML e técnicas baseadas em assinatura para uma cobertura ideal.

Algo, algo, falsos positivos

Mesmo que o modelo seja bem elaborado, o ML apresenta alguns desafios adicionais quando se trata de interpretar a saída, incluindo:

  • O resultado é uma probabilidade. O modelo de ML gera a probabilidade de algo. Se o seu modelo for projetado para identificar gatos, você obterá resultados como “essa coisa é 80% gato”. Essa incerteza é uma característica inerente dos sistemas ML e pode dificultar a interpretação do resultado. 80% gato é suficiente?
  • O modelo não pode ser ajustado , pelo menos não pelo usuário final. Para lidar com os resultados probabilísticos, uma ferramenta pode ter limites definidos pelo fornecedor que os reduzam a resultados binários. Por exemplo, o modelo de identificação de gato pode relatar que qualquer coisa >90% “gato” é um gato. A tolerância da sua empresa para a cat-ness pode ser maior ou menor do que o definido pelo fornecedor.
  • Os falsos negativos (FN) , a falha em detectar o mal real, são uma consequência dolorosa dos modelos de ML, especialmente os mal ajustados. Não gostamos de falsos positivos (FP) porque eles desperdiçam tempo. Mas há um trade-off inerente entre as taxas de FP e FN. Os modelos de ML são ajustados para otimizar o trade-off, priorizando o “melhor” equilíbrio de taxas FP-FN. No entanto, o equilíbrio “correto” varia entre as organizações, dependendo de suas avaliações individuais de ameaças e riscos. Ao usar produtos baseados em ML, você deve confiar nos fornecedores para selecionar os limites apropriados para você.
  • Não há contexto suficiente para a triagem de alertas. Parte da mágica do ML é extrair “recursos” preditivos poderosos, mas arbitrários, dos conjuntos de dados. Imagine que identificar um gato esteja altamente correlacionado com o clima. Nenhum humano raciocinaria dessa maneira. Mas esse é o objetivo do ML – encontrar padrões que não poderíamos encontrar de outra forma e fazê-lo em escala. No entanto, mesmo que o motivo da previsão possa ser exposto ao usuário, muitas vezes é inútil em uma triagem de alerta ou situação de resposta a incidentes. Isso ocorre porque os “recursos” que, em última análise, definem a decisão do sistema de ML são otimizados para poder preditivo, sem relevância prática para analistas de segurança.

Será que “Estatísticas” por qualquer outro nome cheiraria tão doce?

Além dos prós e contras do ML, há mais um problema: nem todo “ML” é realmente ML. As estatísticas fornecem algumas conclusões sobre seus dados. O ML faz previsões sobre dados que você não tinha com base nos dados que você tinha. Os profissionais de marketing se apegaram com entusiasmo ao “ aprendizado de máquina ” e à “inteligência artificial” para sinalizar um produto de tecnologia moderna, inovadora e avançada de algum tipo. No entanto, muitas vezes há muito pouca consideração se a tecnologia usa ML, não importa se ML foi a abordagem correta.

Então, o ML pode detectar o mal ou não?

O ML pode detectar o mal quando o “mal” é bem definido e com escopo restrito. Ele também pode detectar desvios do comportamento esperado em sistemas altamente previsíveis. Quanto mais estável o ambiente, maior a probabilidade de o ML identificar corretamente as anomalias. Mas nem toda anomalia é maliciosa e o operador nem sempre está equipado com contexto suficiente para responder. O superpoder do ML não está em substituir, mas em ampliar os recursos de métodos, sistemas e equipes existentes para obter cobertura e eficiência ideais.

FONTE: DARK READING

POSTS RELACIONADOS