Machine intelligente d’analyse financiere

37
MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE Réalisé par: Sabrine MASTOURA Encadrant ENICarthage: Mr. Walid BARHOUMI Encadrante CIMF : Mme. Wahiba BEN FREDJ 2015-2016 Projet de Fin d’ Études Soutenu le 29/06/2016

Transcript of Machine intelligente d’analyse financiere

Page 1: Machine intelligente d’analyse financiere

MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE

Réalisé par: Sabrine MASTOURA

Encadrant ENICarthage: Mr. Walid BARHOUMIEncadrante CIMF : Mme. Wahiba BEN FREDJ

2015-2016

Projet de Fin d’ ÉtudesSoutenu le 29/06/2016

Page 2: Machine intelligente d’analyse financiere

PLAN

Cadre général du projet Apprentissage automatique Compréhension du marché Compréhension des données Préparation des données Modélisation Évaluation Conclusion et perspectives

Page 3: Machine intelligente d’analyse financiere

CADRE GÉNÉRAL DU PROJET

1

Fraudeur

Mesures anti-fraude

Contrôle

Etat tunisien

Recettes fiscales

Page 4: Machine intelligente d’analyse financiere

CADRE GÉNÉRAL DU PROJET

2

DECISIONEL

SINDA

TGT

SADEC

RAFIC

PGT

ADEB

Apprentissage

automatique

Page 5: Machine intelligente d’analyse financiere

CADRE GÉNÉRAL DU PROJET

3

« Connect »Une détection des

incohérences dans les

déclarationsfiscales

Une luttecontre

l’escroquerie à la TVA

« Redditometro »Une comparaison

sommairedes revenues

déclarés et l’estimation

des dépenses

Page 6: Machine intelligente d’analyse financiere

CADRE GÉNÉRAL DU PROJET

4

CRISP-Dm 1.0: Cross-Industry Standard Process

Page 7: Machine intelligente d’analyse financiere

APPRENTISSAGE AUTOMATIQUE

5

Programmationtraditionnelle

Données

Résultats

Algorithmes

Apprentissageautomatique

Résultats

Données

Algorithmes

Page 8: Machine intelligente d’analyse financiere

APPRENTISSAGE AUTOMATIQUE

6

Apprentissage

automatique

Apprentissage

non supervisé Régression

Classification

Apprentissage

supervisé

Valeurdu

redressement

Détection de la fraude

Page 9: Machine intelligente d’analyse financiere

APPRENTISSAGE AUTOMATIQUE

7

P(X,Y)

(X,Y)

X Y'

MinimiserY-Y'

Y

Fonction

de coût

Apprentissage

automatique

( )h X( )h X

0 1 1( ) ... n nh X x x

Pour un modèle linéaire, la fonction hypothèse est:

2( )

0 11

( )1( , ,.., ) ( ( ) )2

im

inJ y

mh x

Ces paramètres inconnues minimisent la fonction de coût: i

( ) ( ) ( )

1

1: ( )( ) i ij j j

im

répéter y xm

h x

Le choix des paramètres se fait par l’algorithme de descente de gradient:i

Page 10: Machine intelligente d’analyse financiere

APPRENTISSAGE AUTOMATIQUE

8

Sélection du modèle :

Régression :

Jeu de données = base d’apprentissage (70%) + base de test (30%)

• Choisir le modèle qui minimise la fonction de coût de test

sous-apprentissage

bon modèle

sur-apprentissage

• Détecter des anomalies d’apprentissage

• Choisir les paramètres minimisant la fonction de coût d’apprentissage i

VraiPositive

(VP)

FauxNégative

(FN)Faux

Positive(FP)

VraiNégative

(VN)

Classe prédite Positive Négative

Clas

se ré

elle

Néga

tive

Po

sitiv

e

Précision=VP / (VP+FP)

Classification :

Rappel= VP/(VP+FN)

Page 11: Machine intelligente d’analyse financiere

COMPRÉHENSION DU MARCHÉ

9

PétroleAvocats

Médecins

Architectes

Généraliste

Pédiatre8

Secteurs

694Activités

156Sous

secteurs

PersonnesPhysiques

PersonnesMorales

80% de la

massesalariale

Page 12: Machine intelligente d’analyse financiere

COMPRÉHENSION DU MARCHÉ

10

DGI

Centre de

contrôleBureau

de contrôle Bureau

de contrôle

DGEVérificationsapprofondies

Vérificationssommaires

Redressementsapprofondis

Redressementssimples

Page 13: Machine intelligente d’analyse financiere

COMPRÉHENSION DU MARCHÉ

11

Page 14: Machine intelligente d’analyse financiere

COMPRÉHENSION DES DONNÉES

12

DécisionnelAnalyse des risques

decsoc

132 Mo

dectva

73,2 Mo

agrpay 547 Mo

sitfis

17 Go

cnss

506 Mo

entreprise

1 Go

resvap

186 Mo agranx

1,66 Go

actagr

338 Moagrtva

567 Mo

asinda

251 Mo

nomimp

4Ko

decird

164 Mo

decirp

163 Mo

Page 15: Machine intelligente d’analyse financiere

COMPRÉHENSION DES DONNÉES

13

Contrôle des donnéesTypes des donnéesErreurs de saisieVolumes des fichiers

Sitfis 17 Go 0.61 Go

Page 16: Machine intelligente d’analyse financiere

COMPRÉHENSION DES DONNÉES

14

Somme des tva chiffre d’affaire par année Somme des redressements par année

Nombre des enregistrements par année

Pairplot de l’échantillon 2011

Page 17: Machine intelligente d’analyse financiere

PRÉPARATION DES DONNÉES

15

Critères dedétection

de la fraude

decsoc

decirp

Jointuregauche

CritèresPhysiqu

e+

Données Physiqu

e

Jointuregauche

Critèresmorales

+Données morales

.pkl Personnes physiques

172 005 enregistrements355 variables

.pkl Personnes morales

2 394 enregistrements358 variables

Page 18: Machine intelligente d’analyse financiere

PRÉPARATION DES DONNÉES

16

Nettoyage des données :

Normalisation des données :

iixx

Écart-type

Moyenne de X

Examiner manuellement les données.

Eliminer les valeurs manquantes : • Champs équivalents

• Valeurs significatives• 0

Page 19: Machine intelligente d’analyse financiere

PRÉPARATION DES DONNÉES

17

Augmentation du nombre des enregistrements

Unicité: Identifiant & Année N: Non redevable R: En règle D: En défaut

012

Page 20: Machine intelligente d’analyse financiere

PRÉPARATION DES DONNÉES

18

Binarisation

Page 21: Machine intelligente d’analyse financiere

MODÉLISATION

19

Régression linéaires :

0 1 1( ) ... n nh X x x

Coefficientsestimateurs

X1 ...Xn

Yi

Modèle élémentaire de la modélisation linéaire

Estimation de la relation entre Y et

La recherche d’un modèle de prévision de Y en fonction de X. 1( ,..., )nX X

Page 22: Machine intelligente d’analyse financiere

MODÉLISATION

20

Régression ridge :

Eviter le sur-apprentissage.

Simplifier la fonction hypothèse.

Ajouter un terme de régularisation

( ) 2 21

1 1

1( ,..., ) ( ( ) ) ( )2

m mi i

n ji j

J h x ym

terme de régularisation

Paramètre derégularisation

Page 23: Machine intelligente d’analyse financiere

MODÉLISATION

21

Réseau de neurones (NN) :

nx

11

.

.

.

.

.

.2x

1x( )h x

couche entrée couche cachée couche de sortie

nx

11

Perceptron multicouche (MLP) :En propagation

jia

( )j( 1)j

1 1

( )j ji i

j j ji i

a g z

z a

i-1

i

i+1 j-1 j

j+1 En rétro propagation( ) ( ) ( 1) ' ( )( ) .* ( )

j ji i i

j j T j j

a y

g z

ji

( )j

Page 24: Machine intelligente d’analyse financiere

MODÉLISATION

22

Machine à vecteurs de support (SVM) :

Vecteurs de supportHyperplan optimal

Marge maximale

Appliquer un noyau

Recherche de la marge de séparation maximale.

augmenter la dimension de l’espace de représentation des données d’entrées.

Page 25: Machine intelligente d’analyse financiere

MODÉLISATION

23

Forêts d'arbres décisionnels :

arbre 1 arbre 2 arbre n

k 1 k 2 k n

vote

k

Page 26: Machine intelligente d’analyse financiere

ÉVALUATION

24

La modélisation linéaire :

« LinearRegression » «Ridge »

Objectif :

• Estimation de la valeur du redressement approfondie

• Estimation de la valeur du redressement simple

Mini Small Medium Large Xlarge[0 , 100K[ [100K ,

1M[[1M , 10M[ [10M ,

25M[[25M , Inf.[

• Découpage des contribuables selon les chiffres d’affaires

Page 27: Machine intelligente d’analyse financiere

ÉVALUATION

25

Régression linéaire :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondiepour la catégorie MEDIUM

Page 28: Machine intelligente d’analyse financiere

ÉVALUATION

26

Régression ridge :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondie

pour la catégorie Medium

Page 29: Machine intelligente d’analyse financiere

ÉVALUATION

27

La modélisation non linéaire :

Objectif:

• Classifier l’intervalle de la fraude

• Variable cible = redressement simple + redressement approfondi

[0 , 1 000[ [1 000,3 500[ [3 500,10 000[

[10 000,30 000[

[30 000,60 000[

[60 000,Infinie[

• Découper les contribuables selon la catégorie

«Multi Layer Perceptron » «Support Vector Classifier » « ExtraTreeClassifier »

Page 30: Machine intelligente d’analyse financiere

ÉVALUATION

28

Réseau de neurones :

Le rapport de classification

Les paramètres

Page 31: Machine intelligente d’analyse financiere

ÉVALUATION

29

Réseau de neurones :

Les paramètres

Le rapport de classification

Page 32: Machine intelligente d’analyse financiere

ÉVALUATION

30

Machine à vecteurs de support : Les paramètres

Le rapport de classification

Page 33: Machine intelligente d’analyse financiere

ÉVALUATION

31

Machine à vecteurs de support :

Les paramètres

Le rapport de classification

Page 34: Machine intelligente d’analyse financiere

ÉVALUATION

32

Forêts d'arbres décisionnels : Les paramètres

Le rapport de classification

Page 35: Machine intelligente d’analyse financiere

ÉVALUATION

33

Forêts d'arbres décisionnels :

Le rapport de classification

Les paramètres

Page 36: Machine intelligente d’analyse financiere

CONCLUSION ET PERSPECTIVES

34

Réseau de neurones

• 41%• 30%

Machine à vecteurs de

support

• 42%• 31%

Forêts d’arbres décisionnels

• 46%• 42%

Personnephysique Personne

morale

Page 37: Machine intelligente d’analyse financiere

MERCI POUR VOTRE ATTENTION

35