As organizações agora criam e movem mais dados do que em qualquer momento da história humana. O tráfego de rede continua aumentando, e a largura de banda global da internet cresceu 29% em 2021, atingindo 786 Tbps. Além dos volumes de tráfego recordes, 95% do tráfego agora é criptografado de acordo com o Google. À medida que os atores de ameaças continuam a evoluir suas táticas e técnicas (por exemplo, ocultar ataques em tráfego criptografado), proteger as organizações está se tornando mais desafiador.
Para ajudar a resolver esses problemas, muitas equipes de segurança e operações de rede estão confiando mais fortemente em tecnologias de machine learning (ML) para identificar falhas, anomalias e ameaças no tráfego de rede. Mas à medida que o tráfego criptografado se torna cada vez mais a norma, as tecnologias tradicionais de ML também precisam evoluir. Neste artigo, gostaria de olhar para o tipo de modelos ML que estão sendo usados hoje e explorar como eles podem ser emparelhados com a tecnologia Deep Packet Dynamics (DPD) para obter visibilidade sobre ameaças que podem ser escondidas no tráfego criptografado.
Para ter sucesso com as equipes de ML, NOC e SOC precisam de três coisas: coleta de dados, engenharia de dados e pontuação de modelos.
A coleta de dados envolve a extração de metadados diretamente do fluxo de pacotes de rede. A engenharia de dados é o processo de mover dados brutos para o lugar certo e transformá-los para entrada em um modelo. Isso inclui tarefas como padronização de dados e criação de recursos. A pontuação do modelo é o estágio final em que os algoritmos ML são aplicados aos dados. Isso inclui as etapas necessárias de treinamento e testes de modelos.
Historicamente, a ML tem se apoiado em modelos de loteamento. Com big data de variedade de jardim, os oleodutos de dados tradicionais funcionam muito bem. Os modelos são treinados offline usando dados históricos e retrospectivos. Mais tarde, é implantado em dados que foram salvos para análise.
Funciona algo assim: primeiro, a equipe cria um pipeline de dados altamente projetado para portar todos os dados de volta em um enorme lago de dados. Em seguida, recursos históricos são criados executando consultas e scripts de pré-processamento. Por fim, os modelos são treinados na grande coleta de dados. Uma vez pronto, o modelo treinado é movido para a produção, o que requer traduzir cada etapa de processamento de dados para uma aplicação voltada para fora.
O custo de armazenamento e processamento de dados pesados (que são dados “grandes” que exigem ferramentas especializadas para armazenamento e processamento, e não é armazenado em formatos tradicionais de registro de banco de dados) como dados de rede pode ser proibitivo. Este método de ML requer dimensionamento significativo e recursos. É útil para o desenvolvimento de modelos e modelos preditivos com um grande horizonte de tempo.
No entanto, à medida que o tráfego de rede cresceu, há uma alternativa mais recente chamada streaming ML. Ele utiliza uma pegada de recurso muito menor, ao mesmo tempo que excede os requisitos de desempenho das redes de largura de banda mais altas. Quando combinadas com análises de tráfego criptografadas, as organizações têm uma ferramenta poderosa que fornece visibilidade sobre ameaças de rede. Historicamente, olhando para o tráfego de rede foi feito usando DPI (Deep Packet Inspection, inspeção de pacotes profundos), mas como mais desse tráfego está agora criptografado, ele está se tornando cada vez menos útil. Isso levou o mercado a uma nova tecnologia chamada Deep Packet Dynamics (DPD), que oferece um rico conjunto de metadados feito sem inspeção de carga útil.
Os recursos do DPD incluem características de tráfego como relação produtor/consumidor, jitter, RSTs, retransmitições, sequência de comprimentos e tempos de pacotes (SPLT), distribuições de bytes, tempo de configuração da conexão, tempo de ida e volta e muito mais. Oferece características superiores que são adequadas para ML e são eficazes na identificação de padrões e anomalias que abordagens simples e aprimoradas não conseguem capturar. Mas eles não podem ser computados retrospectivamente, eles devem ser capturados à medida que o tráfego flui em tempo real. Esta forma de criptoanálise reforça a privacidade eliminando a técnica intensiva de processamento man-in-the-middle (MITM) de descriptografar e inspecionar o tráfego.
Como resultado da combinação de ML de streaming com equipes de DPD, SOC e NOC podem detectar mais facilmente ameaças avançadas em tempo real. Essa abordagem pode, por exemplo, descobrir ataques de ransomware em andamento na rede, incluindo movimentos laterais, ataques avançados de phishing e buracos de rega, atividade de ameaça interna e muito mais. Essa abordagem também elimina a cegueira de criptografia e restaura a visibilidade dos defensores da rede.
Até 2025, quase todo o tráfego de rede será criptografado. À medida que a criptografia cresce (juntamente com novas ameaças), as organizações devem confiar mais fortemente no streaming de ML (incluindo motores de aprendizado de máquina) e na análise de tráfego criptografado para obter a visibilidade necessária no tráfego anômeo. Sem ele, os atacantes continuarão a contornar os mecanismos tradicionais de segurança, se esconder dentro da criptografia e completar ataques com sucesso.
FONTE: HELPNET SECURITY