L’IA et la sécurité numérique Mythe et réalité

Post on 17-Jun-2022

6 views 0 download

Transcript of L’IA et la sécurité numérique Mythe et réalité

L’IA et la sécurité numériqueMythe et réalité

1

Agenda

2

• Quelques définitions

• Un peu d’histoire

• La création d’un modèle de Machine Learning

• L’intelligence artificielle appliquée à la reconnaissance d’images

• L’intelligence artificielle appliquée à la cyber sécurité

Quelques définitions

3

5

ARTIFICIAL INTELLIGENCE

MACHINE LEARNING

K-MEANS HIDDENMARKOV

NEARESTNEIGHBOR

CLUSTERING, STATISTICAL

DISTRIBUTION

DEEPLEARNING DECISION

TREES

6

K-MEANS HIDDENMARKOV

NEARESTNEIGHBOR

CLUSTERING, STATISTICAL

DISTRIBUTION

DEEPLEARNING DECISION

TREES

SUPERVISÉ NON SUPERVISÉ

Apprentissage supervisé et non supervisé

7

• Dans le cas de l’apprentissage supervisé, la robustesse de l’algorithme dépendra de la précision de son entrainement. Un algorithme apprenant des contenus supervisés produit une carte interne qui permet sa réutilisation pour classifier de nouvelles quantités de données.

Machine Learning vs. Deep Learning

9

DEE

P L

EAR

NIN

G

Couche de neurones interconnectés, Chacun identifiant des caractéristiques plus complexes

ENTREE SORTIE

SORTIE

MA

CH

INE

LEA

RN

ING

Arbre de décision

ENTREE

Random Forest

SORTIEENTREE

Un peu d’histoire

11

Au début c’était simple

Anti-Virus à base de signatureo Pouvait détecter chacune des menaceso Les malwares étaient des exécutables et des

choses comme des documents ou des scriptso Le checksum d’un malware était de 1 pour 1o Le ‘String Scanning’ était la façon de faire

Nouveau malware o Vulnérable tant qu’une mise à jour n’était pas

publiée par les éditeurs d’antivirus

Faux positiveo Les antivirus globalement ne confondaient pas

les bons fichiers avec les mauvais

“Fin 2001, environ 60 000 formes de malwares ou menaces étaient connus”Microsoft – ‘The evolution of malware and the threat landscape – a 10 year review’ Feb 2012

Circa - 200160,000

Today600,000,000

Total malware

Circa – 19921,500

Mais le problème a commencé à se compliquer

1995 – Les éditeurs d’antivirus pouvaient détecter chaque variante de malwares grâce aux checksums

o Avec la forte augmentation du volume de menaces, les éditeurs d’antivirus ont commencé à utiliser le « string scanning » pour détecter les composants de malwares connus

o Les malwares polymorphiques ont rendu la modification d’une signature triviale et automatique et le volume de malwares a explosé

o Les antivirus ont répondu en construisant des règles d’heuristiques

o Les auteurs de malwares ont répondu en chiffrant les charges exécutables

o Les antivirus ont donc répondu avec des émulateurs et des détections de données chiffrées

2005 – Les éditeurs d’antivirus avec juste un « checksummer » AV sont morts

Les arbres de décisions et les heuristiques ont créés un problème

o Faux négatifs – Certains malwares ne sont pas détectés

o Faux positifs – Certains fichiers légitimes sont détectés comme malicieux

Seen on 100 network workstations

Has suspiciousheaders

Has suspicious headers

MaliciousLegitimate

NO

NO

YES

YES NO YES

Legitimate Is digitally signed

NO YES

Contains Encrypted Data

Contains Encrypted Data

MaliciousLegitimate

NO YES

MaliciousLegitimate

NO YES

“ Signature-based scanning only detects

known malware”Symantec– ‘Heuristic Techniques in AV Solutions: An overview’ Feb 2002

“ The virus problem will be with us forever”

Dr Alan Soloman – ‘Computer Virus History 1‘ 2002

L’émergence du machine learning pour améliorer les heuristiques

Si un nouveau malware bypasse une détection heuristiques, ajouter simplement une nouvelle règle

o Les règles heuristiques sont devenues rapidement complexes et lentes

o Beaucoup de mises à jour pour la redéfinition des règles

En 2011 le premier machine learning est prometteur

o Ceci permettait de tuner les règles et de construire des évaluations statistiques complexes, Naive Bayesian, K-Nearest Neighbor…

o Ceci restait relativement simpliste et nécessitait des hommes pour identifier ce qui devait être mesuré

Sélectionner le classificateur était critiqueo Quel classificateur va-t-on utiliser?o Quels types d’attributs va-t-on utiliser ?

A single malware family was responsible for 80% of all attack sessions during Oct 2014”Palo Alto – ‘Kolous, Asprox malware family accounts for 80% of attacks’ Dec 2015

Machine learning model evaluation (Nearest Neighbour)

Source – ‘Analysis of Machine Learning techniques used in behavior-based malware detection’ 2009

Mais le taux de faux positifs était catastrophique…

Se focaliser sur l’efficacité est essentielIl n’y a pas de remède magique

o Aucune méthode de détection ne va détecter chaque pièce d’un malware

o Les malwares non détectés sont des faux négatifs

Le logiciels légitimes ne doivent pas être détectés comme des malwares

o Quand un logiciel légitime a été détecté comme un malware, c’est un faux positif

Le machine learning nétait pas encore prêt

Vrai positifVrai malware détecté

Faux négatifMalware non détecté

Faux positifLogiciels légitimes qui ont

été détecté comme un malware

Vrai négatifLogiciels légitimes qui ont

été détecté comme correct

Malware Legitimate software

94.3%

5.7%

8.1%

91.2%

Current machine learning models from both traditional and ‘next generation’ anti-malware

companies are still primarily focused on improving legacy heuristic models / decision trees

Les réseaux neuronaux et le Deep Learning

Le Deep learning n’utiliee pas d’heuristiques / arbres de décisionso Le Deep learning automatise le processus d’identification

Le Deep learning s’adapte intrinsèquement au volume énorme de données

o Des centaines de millions d’échantillons de malwares utilisés pour l’apprentissage

o Ajouts d’environ 400K par jour

o Les pré requis mémoire restent constants

Le Legacy machine learning basé sur l’optimisation d’arbres de décision ne peut simplement pas s’adapter

o Chaque nouvelle branche (toujours plus nombreuses) augmente la taille et influe sur les coûts d’évaluation plus importants avec une précision minimale améliorée

Deep learning vs legacy machine learningo Plus rapide

o Plus petit

o Plus précis

Deep learning neural networks – ‘A quantum leap over traditional machine learning’Invencia , Josh Saxe – ‘A quantum leap over traditional machine learning’ June 2017

Machine learning model evaluation (Deep learning)

Source – Sophos Labs testing of new executable malware, 2017

True positiveReal malware detected

False negativeUndetected Malware

False positiveLegitimate software that is detected as malware

True negativeLegitimate software that

is detected as good

Malware Legitimate software

>99%

<1%

<1%

>99%

Tout repose sur un modèle de Machine Learning

17

Produire un modèle…

18

…c’est comme essayer de trouver la recette pour la brioche parfaite

1. Trouver LA recette (Data Preparation)

19

A qui allez-vous demander la recette ?

2. Réunir les bons ingrédients (Data Preparation)

20

Vous préférez lesquels ?

3. Mesurer les ingrédients (Feature selection and learning)

21

Exactitude versus précision

4. Mélanger les ingrédients (Model Selection)

22

5. Entraîner le modèle (Cuire la brioche)

23

6. Evaluation du modèle (Créer votre carte d’évaluation)

24

7. Evaluation du modèle (Tester la brioche !)

25

Applications à la reconnaissance d’images

26

Comment ca fonctionne ?

27

CARACTERISTIQUES

CouleurFormeTaillePoids

PREDICTIONS

LEARNER

REPONSES

MODELE EN PRODUCTIONPREDICTION Fruit

ENTREES

ENTRAINERLE MODELE

TYPES

Légumes

Fruit

Chien ou muffin ?

28”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Chien ou bagel ?

29”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Chien ou serpillère?

30”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Chien ou cuisse de poulet pané ?

31”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Chien ou croissant ?

32”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Applications à la cybersécurité

33

Comment ca fonctionne ?

34

CARACTERISTIQUES

VendeurOrigineTailleHash

PREDICTIONS

LEARNER

REPONSES

MODELE EN PRODUCTIONPREDICTION

ENTREES

ENTRAINERLE MODELE

TYPES

Exécutable

Malware

Plus il y a d’échantillons et d’attributs utilisés pour entraîner le modèle, meilleure est la prédiction. Malheureusement, le Machine Learning traditionnel est limité dans les nombres qu’il peut efficacement traiter.

Pourquoi le Deep Learning ?

Apprend automatiquement à optimiser les caractéristiquesAUTOMATISATION

ECHELLE

EFFICACITE

Caractéristiques extraites manuellement des données cibles

Difficulté à atteindre les 10 millions

Nécessite des tailles de modèles énormes Tailles des modèles très compressées

Peut atteindre allègrement les 100 millions

MACHINE LEARNING

Taille : 1m80Poids : 75 kgCheveux : ChâtainYeux : MarronsAge : 32Droitier…

Meilleure Protection

Meilleure Performance

MeilleurePrécision

DEEP LEARNING

Tout n’est pas malware ET vous n’en voulez toujours pas

• Applications Potentiellement Indésirables (PUAs) o Spyware

o Adware

o Pskill…

• Le Deep Learning classifie les logiciels comme étant malicieux, PUA ou légitimes

• Savoir que ce n’est pas un malware mais que ce n’est quand même pas voulu permet à l’administrateur de prendre des décisions plus rapidemento Personne ne veut autoriser des malwares

o Mais certains administrateurs auront besoin d’autoriser certains PUAs

Classification Deep Learning

Malware

Logiciels légitimes

Applications potentiellement indésirables

Deep Learning augmenté

Suppression des faux positifso Live Protect – Contrôles de la suppression des FP à l’exécution

o Mise à jour des règles de suppression- Encapsules les règles de suppression des faux positifs dans des mises à

jour de petite taille disponibles sur l’endpoint

o Gestion par l’administrateur- Les administrateurs peuvent supprimer une détection sur un logiciel

connu légitime par hash, nom du fichier, chemin et certificat- Les méta données des fichiers sont envoyés aux laboratoires pour

améliorer le moteur de Deep Learning dans le temps

Pourquoi la gestion des faux positifs est-elle si importante ? o Permet un déploiement immédiat sans période d’apprentissageo Permet l’utilisation d’un modèle de détection plus agressif

(Moins de faux négatifs) o Fait baisser considérablement le taux de faux positifs du modèleo Il en résulte des mises à jour moins fréquentes du modèle Deep

Learning dans le temps

Deep Learning augmenté

Malware

Logiciels légitimes

PUA

Exclure les applications légitimes connues par les laboratoires

Exclure les applications autorisées par l’administrateur

Quarantaine

En conclusion

38

En conclusion

39

• Le Deep Learning est une fonctionnalité importante pour la lutte contre les menaces avancées

• Il est rapide, léger et performant

• Mais il ne doit pas être le seul composant de votre sécurité

• N’oubliez pas les fondamentaux comme l’antivirus traditionnel et tout élément qui vous permettra de réduire la surface d’attaque

Merci

40