Post on 16-Sep-2018
Machine learning et Data MiningIntroduction
Jamal Atifjamal.atif@dauphine.fr
Certificat Data Science
Université Paris-Dauphine
1 / 42 Jamal Atif CDS-Dauphine
Introduction
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
2 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
3 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Le Machine Learning et DataMining, qu’est-ce que c’est ?
4 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Question de vocabulaire... (1)
Attention :I historiquement : plusieurs «
points de départ »I domaine récent dont le
vocabulaire n’est pas fixéI évolution rapideI domaine applicatif versus
domaine de recherche
5 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Question de vocabulaire... (2)
I reconnaissance des formes (patternrecognition)
I analyse de donnéesI apprentissage automatique (machine
learning)
I fouille de données (data mining)I intelligence artificielleI statistiqueI ...
⇒ domaines différents avec des intersections plus ou moins grandes
Data Sciences
6 / 42 Jamal Atif CDS-Dauphine
Introduction ADM, c’est quoi ?
Dans ce cours
DéfinitionEnsemble de techniques permettant l’extraction de connaissances sous laforme de modèles à partir de grandes masses de données
Ces modèles peuvent être de natureI descriptive : permettant d’expliquer le comportement actuel des donnéesI prédictive : comportement futur des données.
7 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
8 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?Dans l’industrie
Carte de créditI tous les achats sont enregistrésI détection des fraudes/comportement à
risqueI ciblageI accord de prêtI ...
Navigation WebI historique de la navigationI ciblage/marketingI optimisation des sites / du trafficI ...
9 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?Pour la science
fMRI
I functional Magnetic Resonance ImagingI variation de pression sanguine en réponse à des
stimuliI brain computer interface
Big Science
I détecteur ATLAS du CERNI 40M événements par secondes, 25Mo par événementI 1Po de données générées par secondes à analyserI même situation en biologie, astronomie, ...
10 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?Pour la société
I tous les textes et discussion duparlement européen sontdisponibles...
I ...avec leurtraduction/interprétation
I corpus parallèle : les phrases sontalignés
I utilisable pour apprendre :I des dictionnairesI des systèmes de traduction
automatiqueI des mémoires de traduction
I ⊕ analyse « politique » desdonnées
11 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Et encore
I Smart CitiesI Analyse de traffic : RFF/SNCF place des capteurs tout les 100m sur les
rails souhaitant suivre en temps réel l’état de son réseau...I Analyse de qualité de partenariat : cadres, signature d’un contrat avec un
prestataire, pour une qualité de service et de respect de normesnationales ou supra-nationales. =⇒ étude des publications, presse,dépêches, tweets + information interne pour quantifier les cas de nonrespect ou de respect des engagements.
I Historique des passages de frontières, etc.
12 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
Pourquoi l’ADM ?
Une grosse quantité de données qui n’est jamais analysée⇒mettre en place des mécanismes d’analyse automatique.
Big Data
13 / 42 Jamal Atif CDS-Dauphine
Introduction L’ADM, pourquoi ?
ADM : composants de base
Grande quantité de données + algorithmes efficaces
Un domaine qui s’appuie sur :I La disponibilité de grandes quantités de données
I Si ensemble trop petit, les structures peuvent ne résulter que du hasard.I On peut espérer qu’un gros volume de données représente bien l’univers
(échantillon).I Des algorithmes sûrs et efficaces
I Algorithmes sûrs : fondés théoriquement, corrects.I Efficaces en temps et en espace.I Résultats interprétables.I Paramètres ajustables facilement et rapidement.
14 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
15 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Les données ?Les données peuvent être vues comme une collection d’objets(enregistrements) et leurs attributs.
I Un attribut est une propriété et ou une caractéristique de l’objet.I Un ensemble d’attributs décrit un objet.
16 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Attribut - valeur
I La valeur d’un attribut est un nombre ou un symbole.I Ne pas confondre attribut et valeur
TypesI Quantitative (numérique, exprime une quantité)
I Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : longueur)I Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température,
QI)
I QualititativeI Variable ordinale (classement à un concours, échelle de satisfaction client)I Variable nominale (couleur de yeux, diplôme obtenu, CSP, sexe)
I Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les donnéesex : les modalités de notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont{bleu,vert,noir,...}
17 / 42 Jamal Atif CDS-Dauphine
Types de données Exemples de données disponibles
Exemple de données disponibles
I Transactions.I Bases de données des entreprises.I Téléphone portable.I Satellites : espace et la terre.I Données temporelles : cours de la bourse, météo.I Génomique.I Données du web.I Données textuelles.I ...
18 / 42 Jamal Atif CDS-Dauphine
Types de données Types de connaissances extraites
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
19 / 42 Jamal Atif CDS-Dauphine
Types de données Types de connaissances extraites
Types de connaissances extraites
Connaissances sous la forme de modèles de permettant deI décrire le comportement actuel des données et/ouI prédire le comportement futur des données.
I AnalysesI e.g. distribution du trafic routier en fonction de l’heure
I RèglesI e.g. si un client a acheté un produit alors il sera intéressé par un autre.
I Attribution de scores de qualitéI e.g. score de fidélité au client
I Classification d’entitésI e.g. mauvais payeurs.
20 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
21 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon l’objectifI Classification : examiner les caractéristiques d’un objet et lui attribuer
une classe.e.g. diagnostic ou décision d’attribution de prêt à un client.
I Prédiction : prédire la valeur future d’un attribut en fonction d’autresattributs.e.g. prédire la qualité d’un client .
I Association : déterminer les attributs qui sont corrélés.e.g. analyse du panier de la ménagère
I Segmentation : former des groupes homogènes à l’intérieur d’unepopulation.
22 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type de modèle obtenuI Modèles prédictifs.
I Utilisent les données existantes et des résultats connus sur ces données pourdévelopper des modèles capables de prédire les valeurs d’autres données.e.g. Prédire les clients qui ne rembourseront pas leur crédit.
I Utilisés principalement en classification et prédiction.I Modèles descriptifs.
I Proposent des descriptions de données pour aider à la prise de décision.I Souvent en amont de la construction de modèles prédictifs.I Utilisés principalement en segmentation et association.
23 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Typologie des méthodes de fouilles de données
Typologie selon le type d’apprentissage utiliséI Apprentissage supervisé : fouille supervisée
I Processus qui prend en entrée des exemples d’apprentissage contenant à lafois des données d’entrée et de sortie.
I Les exemples d’apprentissage sont fournis avec leur classe.I But : classer correctement un nouvel exemple.I Utilisés principalement en classification et prédiction.
I Apprentissage non supervisé : fouille non superviséeI Processus qui prend en entrée des exemples d’apprentissage contenant que
des données d’entréeI Pas de notion de classeI But : regrouper les exemples en paquets (clusters) d’exemples similaires.I Utilisés principalement en segmentation et association.
24 / 42 Jamal Atif CDS-Dauphine
Familles d’approches
Dans ce cours, nous adoptons la typologie selon le type d’apprentissageutilisé.
25 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
26 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :
X 3 xf∈F−→ y ∈ Y
I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :
X 3 xf∈F−→ y ∈ Y
I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :
X 3 xf∈F−→ y ∈ Y
I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :
X 3 xf∈F−→ y ∈ Y
I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage supervisé
Principe : étant donné un ensemble de données étiquetéesS = {〈xi, yi〉, i = 1, · · · ,n}, apprendre une fonction qui associe les données auxétiquettes :
X 3 xf∈F−→ y ∈ Y
I Y ≡ R : un problème de régressionI Y ≡ discrete set (e.g. {0, 1}) : un problème de classificationI F peut correspondre à un espace de fonctions linéaires ou non-linéaires
27 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Apprentissage superviséClassification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champparticulier à valeurs discrètes).
I Etant donnée une collection d’enregistrements (ensembled’apprentissage).
I Chaque enregistrement contient un ensemble d’attributs et un de cesattributs est sa classe.
I Trouver un modèle pour l’attribut classe comme une fonction de lavaleurs des autres attributs
I But : permettre d’assigner une classe à des enregistrements inconnus demanière aussi précise que possible.
I Un ensemble de test est utilisé pour déterminer la précision du modèle.
28 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemple
29 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemples d’applications
Marketing directI But : réduire le coût du mailing en ciblant un ensemble de
consommateurs qui achèteront vraisemblablement un nouveautéléphone portable.
I Approche :I Utiliser des données pour un produit similaire.I On sait quels consommateurs ont acheté. La décision (Achat - Pas achat) est
l’attribut classe.I Collecter diverses informations sur ce type de consommateurs.I Cette information représente les entrées du classifier.
30 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage supervisée
Classification : exemples d’applications
I Détection de fraudes à la carte bancaire à l’aide des transactions etd’informations sur le porteur du compte.
I Détection de désabonnement à l’aide des données sur d’autresconsommateurs présents ou passés.
I Catalogage du ciel : classification des objets du ciel à l’aide d’images.
31 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Plan
1 IntroductionL’ADM, qu’est-ce que c’est ?L’ADM, pourquoi ?
2 Types de données exploitées et de connaissances extraitesExemples de données disponibles exploitéesTypes de connaissances extraites
3 Familles d’approchesApprentissage superviséApprentissage non-supervisé
32 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Apprentissage non-supervisé
Principe
Etant donné un ensemble non étiqueté S = {xi, i = 1 . . .N} : modélisation deX
33 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Partitionnement / clustering
Former des groupes homogènes à l’intérieur d’une population
I méthodes hiérarchiquesI méthodes agglomérativesI méthodes spectralesI méthodes probabilistes
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Estimation de densitéI Méthodes paramétriquesI Méthodes non paramétriques
F PDF Contour
-2 -1 0 1 2 3 4
-2
-1
0
1
2
3
4
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Sélection / recodage de variablesI réduction de dimension, étude des corrélations (PCA, ICA, KPCA, etc)I identification des variables pertinentes
−0.2 −0.1 0.0 0.1 0.2 0.3
−0.
2−
0.1
0.0
0.1
0.2
0.3
Comp.1
Com
p.2
AlabamaAlaska
Arizona
Arkansas
California
ColoradoConnecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana Iowa
Kansas
KentuckyLouisiana
MaineMaryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
Oregon Pennsylvania
Rhode Island
South Carolina
South DakotaTennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
−5 0 5
−5
05
Murder
Assault
UrbanPop
Rape
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Analyse des corrélationsI numériques : étude des corrélations, de l’information mutuelle : A et B
sont liésI symbolique : extraction de règles d’association : A→ B
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
Visualisation et exploration des donnéesI projections optimales dans Rp, p petitI constructions de hiérarchiesI extraction des exemples / dimensions typiques
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Figures de l’apprentissage non-supervisé
CombinaisonsI estimation paramétrique + partitionnementI réduction dimension + partitionnementI réduction dimension + visualisationI ...
34 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Partitionnement : exemples d’applications
I Segmentation de marchés .I Segmentation de documents.I ...
35 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Association : exemples d’applications
Entrée : Un ensemble de tickets de caisse
I Une observation = un caddie, un ticket de caisse.I Non prise en compte de la fréquence des produits.I Un grand nombre de produits, un grand nombre de caddies (petit sous ensemble de
l’ensemble de produits).
Sortie : Des règles
36 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Association : exemples d’application
I Marketing et promotions sur des produits.I Gestion du supermarchés : rayonnage.I Inventaire.I ...
37 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Organisation de la session
Partie 1 : Approches non-supervisées
1. Introduction générale2. Réduction de dimensionalité
I Analyse par Composantes PrincipalesI Décomposition en Valeurs Singulières : application à l’analyse sémantique
latente et à la recommandation
3. Partitionnement/ClusteringI Algorithme K-MoyennesI Clustering hiérarchique
4. Règles d’association5. Travaux Pratiques sous R : Text Mining
38 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Organisation de la session
Partie 2 : Approches superviséesI Arbres de décisionI knn, Bayes naïfI Techniques de validation et d’échantillonageI Deep learning
39 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Résumé
masse de don-nées (corpus)
I connaissancesI informationsI prédictions
40 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Logiciels d’ADM
Logiciels commerciauxI Suites logicielles SAS
(http://www.sas.com/offices/europe/france/)I SPSS d’IBM
(http://www-01.ibm.com/software/fr/analytics/spss/)I Solution Analytics de SAP
(http://www.sap.com/pc/analytics/strategy.html), KXENI ...
41 / 42 Jamal Atif CDS-Dauphine
Familles d’approches Apprentissage non-supervisé
Logiciels de data mining
Logiciels gratuits
I
I Weka : http://www.cs.waikato.ac.nz/ml/weka/I Ensemble de classes et d’algorithmes JAVA developpés par l’Université de
Waikato en Nouvelle Zelande.I Principaux algorithmes de data mining.I Utilisable en ligne de commande, à l’aide d’une interface utilisateur, par
l’API.I ScikitLearnI
I ...
42 / 42 Jamal Atif CDS-Dauphine