_
Les solutions NDR requièrent une Data Science rigoureuse, et non des modèles d'IA surfaits

9 octobre 2023
Cybersécurité - Intelligence Artificielle - Sécurité réseau

Les solutions NDR (Network Detection & Response) jouent un rôle essentiel dans la protection des systèmes d’information contre les menaces émergentes.

Dans un monde de plus en plus connecté et vulnérable aux cyberattaques sophistiquées, les entreprises tendent à se tourner vers des solutions spécialisées qui intègrent de l’IA pour renforcer leurs capacités de détection des comportements malveillants.

Cependant, il est crucial de faire la distinction entre une solution construite sur ses propres modèles d’IA entrainés et reparamétrés régulièrement par des Data Scientist, d’une solution qui intègre des modèles d’IA préconçus et surfaits.

Dans cet article, nous vous révélons pourquoi les solutions NDR doivent être bâties sur une Data Science solide.

L’efficacité des IDS

Les systèmes de détection d’intrusion réseau tels que Suricata ou SNORT exploitent les connaissances de la communauté pour définir des signatures et des schémas de données représentant des menaces potentielles. En termes de couverture des menaces et du volume de données analysées, ils excellent dans leur domaine.

Cependant, malgré leurs performances élevées, ils ne sont pas infaillibles.

Si un attaquant réussit à infiltrer le réseau, il peut utiliser des méthodes légitimes ou quasi-légitimes pour effectuer des tâches malveillantes telles que l’exfiltration de données sans être détecté. C’est dans ces zones aveugles que l’IA peut apporter une différence cruciale.

L’IA pour détecter les comportements anormaux

Les activités illégales peuvent se cacher derrière des protocoles et des commandes légitimes, mais leur comportement est généralement inhabituel. Par exemple, une exfiltration de données peut passer inaperçue si l’attaquant agit prudemment sur plusieurs heures, jours ou semaines, en transférant de petites quantités de données régulièrement pour rester en dessous des seuils de détection des NIDS (Network Intrusion Detection System) ou des pare-feu traditionnels.

Cependant, un employé normal ne se comporte pas de cette manière. C’est là que l’IA entre en jeu, en analysant le comportement du réseau pour détecter ces transferts répétitifs inhabituels et ainsi identifier les objectifs malveillants des attaquants.

L’approche d’une Data Science rigoureuse pour performer dans la détection

L’IA offre un potentiel énorme pour améliorer la détection des menaces si elle est utilisée rigoureusement.

Les données réseau présentent un mélange complexe d’éléments quantitatifs tels que la taille des charges utiles ou le nombre de connexions par minute, et de données qualitatives telles que le type d’en-tête ou les ports utilisés. Ces informations sont souvent très spécifiques au réseau de chaque entreprise et aux applications utilisées, rendant indispensable l’utilisation de données spécifiques au réseau protégé par l’IA. Cependant, il n’est pas réaliste de capturer les données pour chaque client et de réaliser toutes sortes d’attaques pour former l’IA sur leur réseau.

Face à ces limitations, nous avons au moins deux approches possibles.

La détection d’anomalies 

L’apprentissage par transfert 

Plutôt que de former l’IA à reconnaître des comportements spécifiques, nous pouvons utiliser des modèles d’IA qui apprennent uniquement le comportement normal du réseau d’un client pour détecter ensuite les valeurs aberrantes. Cette approche, appelée détection d’anomalies, repose sur une recherche approfondie et une littérature scientifique abondante. Cependant, elle n’est efficace que si le modèle d’IA a une visibilité complète du comportement normal du réseau pour identifier les anomalies avec précision.

Cela implique que les actifs du réseau soient bien spécifiés, que les applications utilisées et les comportements autorisés doivent être définis et qu’ils doivent être constants dans le temps ou présenter des schémas mesurables qui seront considérés comme normaux. Toutefois, même dans ces conditions, la détection d’anomalies peut générer de nombreux faux positifs qui ne peuvent pas tous être analysés en raison des contraintes de temps et de personnel.

Pour surmonter ce volume de fausses alertes, les prédictions faites par cette approche peuvent être mises en contexte. En comprenant ce qui rend une donnée anormale, nous pouvons tenter d’évaluer sa gravité ou de l’associer à des événements provenant d’autres sources pour les rejeter ou les élever en importance.

Une autre approche consiste à pré-entraîner les modèles d’IA dans un laboratoire sur divers types d’attaques, puis à transférer cette connaissance dans le réseau du client pour compléter leur entrainement et adapter les modèles aux spécificités du réseau.

Cependant, cela suppose que la connaissance est transférable d’un environnement de laboratoire au réseau du client. Si les données utilisées en laboratoire ne contiennent pas les protocoles réseau ou les applications spécifiques qui seront utilisés dans le réseau du client, une grande partie des données pourraient ne pas être transférables. Ainsi, toutes les données d’entrée doivent être minutieusement examinées et évaluées quant à leur capacité à fournir des informations pertinentes dans différents environnements réseau.

Il faut savoir également que le transfert de connaissances est un exercice d’équilibre. Le modèle d’IA doit avoir suffisamment appris dans son environnement d’origine et doit ensuite s’adapter suffisamment au réseau du client. Si le modèle conserve trop d’informations de sa formation initiale, il ne reconnaîtra pas les attaques dans le réseau du client ; en revanche, si l’IA apprend trop dans son nouvel environnement, elle ne se souviendra pas des informations concernant les attaques sur lesquelles elle a été initialement formée.

 

Une expertise en IA requise 

Dans ces deux approches, une connaissance et une compréhension approfondies de l’impact des données d’entrée sur nos modèles d’IA sont cruciales. Il est également essentiel de savoir comment ces données évoluent dans des environnements différents et comment les modèles les utilisent pour prendre des décisions prédictives. Pour obtenir ces connaissances, il est nécessaire de combiner des statistiques descriptives sur les données d’entrée avec des approches d’explicabilité du modèle. En outre, il est recommandé de ré-entraîner fréquemment ces modèles pour détecter d’éventuelles dérives dans leurs prédictions et surveiller l’évolution de l’importance des caractéristiques d’entrée au fil du temps.

Par exemple, si un modèle commence à se baser uniquement sur quelques caractéristiques d’entrée au lieu d’utiliser plusieurs d’entre elles pour faire des prédictions, cela pourrait être un indicateur qu’il a découvert des caractéristiques spécifiques à un protocole ou à une application. Cette focalisation excessive pourrait rendre le modèle « étroit d’esprit » et l’amener à apprendre les spécificités du réseau plutôt qu’à distinguer le comportement normal du comportement malveillant.

Ces informations précieuses sur les données et l’utilisation des modèles d’IA ne sont pas le fruit du hasard. Elles résultent d’un travail minutieux réalisé par une équipe de data scientists en collaboration avec des analystes de sécurité expérimentés. Ces compétences hautement spécialisées ne peuvent pas être simplement achetées sous la forme de microservices ou d’images Docker toutes prêtes. Au contraire, elles nécessitent un laboratoire dédié doté d’une expertise en prétraitement, en nettoyage et en surveillance des données.

Le modèle d’IA lui-même, qu’il s’agisse de Convolutional Neural Nets, de XGBoost ou de transformers, représente l’étape finale d’une exploration approfondie des données d’entraînement et des résultats du modèle. Il ne suffit pas de le considérer comme une solution « clé en main » car son efficacité dépend grandement de la qualité des données et du travail en amont réalisé par l’équipe de data scientists.

En conclusion

Pour ces raisons, les solutions NDR qui aspirent à intégrer l’IA doivent adopter une approche proactive et visionnaire. Elles doivent développer en interne un laboratoire dédié à l’exploration des données et à la recherche en Data Science. Importer simplement des solutions d’IA préconçues ne permettra pas d’atteindre le niveau d’efficacité et de précision nécessaire pour faire face aux défis croissants de la cybersécurité.

En fin de compte, dans le domaine de la sécurité informatique, il n’existe pas de solutions gratuites ou toutes faites. C’est en s’appuyant sur une Data Science rigoureuse que les entreprises pourront réellement tirer profit de l’IA pour protéger leurs actifs et leurs données sensibles.

Curieux de découvrir notre solution NDR ? Réservez votre créneau de démo, c’est 100% gratuit ! 👉ICI.