L’IA et la sécurité numérique Mythe et réalité

37
L’IA et la sécurité numérique Mythe et réalité 1

Transcript of L’IA et la sécurité numérique Mythe et réalité

Page 1: L’IA et la sécurité numérique Mythe et réalité

L’IA et la sécurité numériqueMythe et réalité

1

Page 2: L’IA et la sécurité numérique Mythe et réalité

Agenda

2

• Quelques définitions

• Un peu d’histoire

• La création d’un modèle de Machine Learning

• L’intelligence artificielle appliquée à la reconnaissance d’images

• L’intelligence artificielle appliquée à la cyber sécurité

Page 3: L’IA et la sécurité numérique Mythe et réalité

Quelques définitions

3

Page 4: L’IA et la sécurité numérique Mythe et réalité

5

ARTIFICIAL INTELLIGENCE

MACHINE LEARNING

K-MEANS HIDDENMARKOV

NEARESTNEIGHBOR

CLUSTERING, STATISTICAL

DISTRIBUTION

DEEPLEARNING DECISION

TREES

Page 5: L’IA et la sécurité numérique Mythe et réalité

6

K-MEANS HIDDENMARKOV

NEARESTNEIGHBOR

CLUSTERING, STATISTICAL

DISTRIBUTION

DEEPLEARNING DECISION

TREES

SUPERVISÉ NON SUPERVISÉ

Page 6: L’IA et la sécurité numérique Mythe et réalité

Apprentissage supervisé et non supervisé

7

• Dans le cas de l’apprentissage supervisé, la robustesse de l’algorithme dépendra de la précision de son entrainement. Un algorithme apprenant des contenus supervisés produit une carte interne qui permet sa réutilisation pour classifier de nouvelles quantités de données.

Page 7: L’IA et la sécurité numérique Mythe et réalité

Machine Learning vs. Deep Learning

9

DEE

P L

EAR

NIN

G

Couche de neurones interconnectés, Chacun identifiant des caractéristiques plus complexes

ENTREE SORTIE

SORTIE

MA

CH

INE

LEA

RN

ING

Arbre de décision

ENTREE

Random Forest

SORTIEENTREE

Page 8: L’IA et la sécurité numérique Mythe et réalité

Un peu d’histoire

11

Page 9: L’IA et la sécurité numérique Mythe et réalité

Au début c’était simple

Anti-Virus à base de signatureo Pouvait détecter chacune des menaceso Les malwares étaient des exécutables et des

choses comme des documents ou des scriptso Le checksum d’un malware était de 1 pour 1o Le ‘String Scanning’ était la façon de faire

Nouveau malware o Vulnérable tant qu’une mise à jour n’était pas

publiée par les éditeurs d’antivirus

Faux positiveo Les antivirus globalement ne confondaient pas

les bons fichiers avec les mauvais

“Fin 2001, environ 60 000 formes de malwares ou menaces étaient connus”Microsoft – ‘The evolution of malware and the threat landscape – a 10 year review’ Feb 2012

Circa - 200160,000

Today600,000,000

Total malware

Circa – 19921,500

Page 10: L’IA et la sécurité numérique Mythe et réalité

Mais le problème a commencé à se compliquer

1995 – Les éditeurs d’antivirus pouvaient détecter chaque variante de malwares grâce aux checksums

o Avec la forte augmentation du volume de menaces, les éditeurs d’antivirus ont commencé à utiliser le « string scanning » pour détecter les composants de malwares connus

o Les malwares polymorphiques ont rendu la modification d’une signature triviale et automatique et le volume de malwares a explosé

o Les antivirus ont répondu en construisant des règles d’heuristiques

o Les auteurs de malwares ont répondu en chiffrant les charges exécutables

o Les antivirus ont donc répondu avec des émulateurs et des détections de données chiffrées

2005 – Les éditeurs d’antivirus avec juste un « checksummer » AV sont morts

Les arbres de décisions et les heuristiques ont créés un problème

o Faux négatifs – Certains malwares ne sont pas détectés

o Faux positifs – Certains fichiers légitimes sont détectés comme malicieux

Seen on 100 network workstations

Has suspiciousheaders

Has suspicious headers

MaliciousLegitimate

NO

NO

YES

YES NO YES

Legitimate Is digitally signed

NO YES

Contains Encrypted Data

Contains Encrypted Data

MaliciousLegitimate

NO YES

MaliciousLegitimate

NO YES

“ Signature-based scanning only detects

known malware”Symantec– ‘Heuristic Techniques in AV Solutions: An overview’ Feb 2002

“ The virus problem will be with us forever”

Dr Alan Soloman – ‘Computer Virus History 1‘ 2002

Page 11: L’IA et la sécurité numérique Mythe et réalité

L’émergence du machine learning pour améliorer les heuristiques

Si un nouveau malware bypasse une détection heuristiques, ajouter simplement une nouvelle règle

o Les règles heuristiques sont devenues rapidement complexes et lentes

o Beaucoup de mises à jour pour la redéfinition des règles

En 2011 le premier machine learning est prometteur

o Ceci permettait de tuner les règles et de construire des évaluations statistiques complexes, Naive Bayesian, K-Nearest Neighbor…

o Ceci restait relativement simpliste et nécessitait des hommes pour identifier ce qui devait être mesuré

Sélectionner le classificateur était critiqueo Quel classificateur va-t-on utiliser?o Quels types d’attributs va-t-on utiliser ?

A single malware family was responsible for 80% of all attack sessions during Oct 2014”Palo Alto – ‘Kolous, Asprox malware family accounts for 80% of attacks’ Dec 2015

Page 12: L’IA et la sécurité numérique Mythe et réalité

Machine learning model evaluation (Nearest Neighbour)

Source – ‘Analysis of Machine Learning techniques used in behavior-based malware detection’ 2009

Mais le taux de faux positifs était catastrophique…

Se focaliser sur l’efficacité est essentielIl n’y a pas de remède magique

o Aucune méthode de détection ne va détecter chaque pièce d’un malware

o Les malwares non détectés sont des faux négatifs

Le logiciels légitimes ne doivent pas être détectés comme des malwares

o Quand un logiciel légitime a été détecté comme un malware, c’est un faux positif

Le machine learning nétait pas encore prêt

Vrai positifVrai malware détecté

Faux négatifMalware non détecté

Faux positifLogiciels légitimes qui ont

été détecté comme un malware

Vrai négatifLogiciels légitimes qui ont

été détecté comme correct

Malware Legitimate software

94.3%

5.7%

8.1%

91.2%

Current machine learning models from both traditional and ‘next generation’ anti-malware

companies are still primarily focused on improving legacy heuristic models / decision trees

Page 13: L’IA et la sécurité numérique Mythe et réalité

Les réseaux neuronaux et le Deep Learning

Le Deep learning n’utiliee pas d’heuristiques / arbres de décisionso Le Deep learning automatise le processus d’identification

Le Deep learning s’adapte intrinsèquement au volume énorme de données

o Des centaines de millions d’échantillons de malwares utilisés pour l’apprentissage

o Ajouts d’environ 400K par jour

o Les pré requis mémoire restent constants

Le Legacy machine learning basé sur l’optimisation d’arbres de décision ne peut simplement pas s’adapter

o Chaque nouvelle branche (toujours plus nombreuses) augmente la taille et influe sur les coûts d’évaluation plus importants avec une précision minimale améliorée

Deep learning vs legacy machine learningo Plus rapide

o Plus petit

o Plus précis

Deep learning neural networks – ‘A quantum leap over traditional machine learning’Invencia , Josh Saxe – ‘A quantum leap over traditional machine learning’ June 2017

Machine learning model evaluation (Deep learning)

Source – Sophos Labs testing of new executable malware, 2017

True positiveReal malware detected

False negativeUndetected Malware

False positiveLegitimate software that is detected as malware

True negativeLegitimate software that

is detected as good

Malware Legitimate software

>99%

<1%

<1%

>99%

Page 14: L’IA et la sécurité numérique Mythe et réalité

Tout repose sur un modèle de Machine Learning

17

Page 15: L’IA et la sécurité numérique Mythe et réalité

Produire un modèle…

18

…c’est comme essayer de trouver la recette pour la brioche parfaite

Page 16: L’IA et la sécurité numérique Mythe et réalité

1. Trouver LA recette (Data Preparation)

19

A qui allez-vous demander la recette ?

Page 17: L’IA et la sécurité numérique Mythe et réalité

2. Réunir les bons ingrédients (Data Preparation)

20

Vous préférez lesquels ?

Page 18: L’IA et la sécurité numérique Mythe et réalité

3. Mesurer les ingrédients (Feature selection and learning)

21

Exactitude versus précision

Page 19: L’IA et la sécurité numérique Mythe et réalité

4. Mélanger les ingrédients (Model Selection)

22

Page 20: L’IA et la sécurité numérique Mythe et réalité

5. Entraîner le modèle (Cuire la brioche)

23

Page 21: L’IA et la sécurité numérique Mythe et réalité

6. Evaluation du modèle (Créer votre carte d’évaluation)

24

Page 22: L’IA et la sécurité numérique Mythe et réalité

7. Evaluation du modèle (Tester la brioche !)

25

Page 23: L’IA et la sécurité numérique Mythe et réalité

Applications à la reconnaissance d’images

26

Page 24: L’IA et la sécurité numérique Mythe et réalité

Comment ca fonctionne ?

27

CARACTERISTIQUES

CouleurFormeTaillePoids

PREDICTIONS

LEARNER

REPONSES

MODELE EN PRODUCTIONPREDICTION Fruit

ENTREES

ENTRAINERLE MODELE

TYPES

Légumes

Fruit

Page 25: L’IA et la sécurité numérique Mythe et réalité

Chien ou muffin ?

28”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Page 26: L’IA et la sécurité numérique Mythe et réalité

Chien ou bagel ?

29”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Page 27: L’IA et la sécurité numérique Mythe et réalité

Chien ou serpillère?

30”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Page 28: L’IA et la sécurité numérique Mythe et réalité

Chien ou cuisse de poulet pané ?

31”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Page 29: L’IA et la sécurité numérique Mythe et réalité

Chien ou croissant ?

32”Recognize Dog Deep Learning Training Set” - https://github.com/yskmt/dog_recognition

Page 30: L’IA et la sécurité numérique Mythe et réalité

Applications à la cybersécurité

33

Page 31: L’IA et la sécurité numérique Mythe et réalité

Comment ca fonctionne ?

34

CARACTERISTIQUES

VendeurOrigineTailleHash

PREDICTIONS

LEARNER

REPONSES

MODELE EN PRODUCTIONPREDICTION

ENTREES

ENTRAINERLE MODELE

TYPES

Exécutable

Malware

Plus il y a d’échantillons et d’attributs utilisés pour entraîner le modèle, meilleure est la prédiction. Malheureusement, le Machine Learning traditionnel est limité dans les nombres qu’il peut efficacement traiter.

Page 32: L’IA et la sécurité numérique Mythe et réalité

Pourquoi le Deep Learning ?

Apprend automatiquement à optimiser les caractéristiquesAUTOMATISATION

ECHELLE

EFFICACITE

Caractéristiques extraites manuellement des données cibles

Difficulté à atteindre les 10 millions

Nécessite des tailles de modèles énormes Tailles des modèles très compressées

Peut atteindre allègrement les 100 millions

MACHINE LEARNING

Taille : 1m80Poids : 75 kgCheveux : ChâtainYeux : MarronsAge : 32Droitier…

Meilleure Protection

Meilleure Performance

MeilleurePrécision

DEEP LEARNING

Page 33: L’IA et la sécurité numérique Mythe et réalité

Tout n’est pas malware ET vous n’en voulez toujours pas

• Applications Potentiellement Indésirables (PUAs) o Spyware

o Adware

o Pskill…

• Le Deep Learning classifie les logiciels comme étant malicieux, PUA ou légitimes

• Savoir que ce n’est pas un malware mais que ce n’est quand même pas voulu permet à l’administrateur de prendre des décisions plus rapidemento Personne ne veut autoriser des malwares

o Mais certains administrateurs auront besoin d’autoriser certains PUAs

Classification Deep Learning

Malware

Logiciels légitimes

Applications potentiellement indésirables

Page 34: L’IA et la sécurité numérique Mythe et réalité

Deep Learning augmenté

Suppression des faux positifso Live Protect – Contrôles de la suppression des FP à l’exécution

o Mise à jour des règles de suppression- Encapsules les règles de suppression des faux positifs dans des mises à

jour de petite taille disponibles sur l’endpoint

o Gestion par l’administrateur- Les administrateurs peuvent supprimer une détection sur un logiciel

connu légitime par hash, nom du fichier, chemin et certificat- Les méta données des fichiers sont envoyés aux laboratoires pour

améliorer le moteur de Deep Learning dans le temps

Pourquoi la gestion des faux positifs est-elle si importante ? o Permet un déploiement immédiat sans période d’apprentissageo Permet l’utilisation d’un modèle de détection plus agressif

(Moins de faux négatifs) o Fait baisser considérablement le taux de faux positifs du modèleo Il en résulte des mises à jour moins fréquentes du modèle Deep

Learning dans le temps

Deep Learning augmenté

Malware

Logiciels légitimes

PUA

Exclure les applications légitimes connues par les laboratoires

Exclure les applications autorisées par l’administrateur

Quarantaine

Page 35: L’IA et la sécurité numérique Mythe et réalité

En conclusion

38

Page 36: L’IA et la sécurité numérique Mythe et réalité

En conclusion

39

• Le Deep Learning est une fonctionnalité importante pour la lutte contre les menaces avancées

• Il est rapide, léger et performant

• Mais il ne doit pas être le seul composant de votre sécurité

• N’oubliez pas les fondamentaux comme l’antivirus traditionnel et tout élément qui vous permettra de réduire la surface d’attaque

Page 37: L’IA et la sécurité numérique Mythe et réalité

Merci

40