Tadti crs3-n

Régression Linéaire Multiple

Massih-Réza Amini

Techniques d’Analyse de Données et Théorie de l’InformationMaster M2 IAD – Parcours Recherche

amini@poleia.lip6.fr

http://www-connex.lip6.fr/~amini Laboratoire d’Informatique de Paris 6 2Massih-Reza.Amini@lip6.fr

Définition,

Historique,

Interprétation géométrique de la solution,

Lien avec l’analyse de Corrélation Canonique,

Récapitulatif – solutions de VPG

Laboratoire d’Informatique de Paris 6 3Massih-Reza.Amini@lip6.fr

Régression Linéaire Multiple

Les modèles de régression tentent de trouver une relation entre deux variables aléatoires x∈ℜp et y∈ℜ

On cherche à trouver une dépendance fonctionnelle entre les sorties réelles comme fonction des entrées

De prévoir la valeur de y connaissant celle de x

En régression linéaire la forme de la dépendance fonctionnelle est une droite: y=xtw+w0

Il s’agit ici d’estimer une variable réelle par une combinaison linéaire des caractéristiques d’entrée

Cas particulier de la corrélation canonique avec q =1.

( )pw,...,w1

Historique

Le premier travail sur la régression linéaire à été publié par Legendre en 1805.

La méthode des moindres carrés.

Gauss prétendait la connaissance de cette méthode depuis 1795.

Legendre et Gauss ont appliqué cette méthode pour prédire l’orbites des planètes à partir des observations astronomiques

Gauss a publié en 1821 une théorie sur la méthode des moindres carrésIncluant une version du théorème Gauss-Markov

D’autres études ont été menées tout le 19ème et le début de 20ème siècle pour décrire des phénomènes biologiques et étendues à un contexte statistique général par Pearson, Yule (1877,1885) et Fisher (1922).

Régression au sens des moindres carrées

On cherche une fonction f :ℜp →ℜ qui prédit la valeur de y connaissant x

On suppose qu’il existe une relation entre x et y à travers une distribution de probabilité jointe p(x,y)

Pour trouver les paramètres de la fonction f on définit une fonction de risque L(y,f(x)) qui pénalise les erreurs de prédictions.

Régression au sens des moindres carrées (2)

Au sens des moindres carrées la fonction de risque est

Pour trouver la fonction qui minimise cette expression il suffit de minimiser ECM pour tout x

La solution est

( ) ( )( )( )( ) ( )

( )( )[ ][ ]XXfYEE

dxdyy,xpxfy

XfYEfECM

∫ ∫

( ) ( )[ ]xXcYEminargxf XYc

=−= 2

( ) ( )XYExf =

Interprétation géométrique

L’espace de toutes les variables aléatoires sur le même expérimental forme un espace de Hilbert si on le munit du produit scalaire

Dans ce cas pour des variables centréesLa norme des variables centrées est leur écart-type,La covariance entre X et Y est le produit scalaire des variables.

Pour des variables centrées, l’espérance de X est la projection orthogonale de X sur la droite des constantes.

( )XYEY,X =

Interprétation géométrique (2)

Soit LX le sous-espace de Hilbert constitué des variables aléatoires fonctions seulement de X.

On peut montrer que LX est fermé et contient la droite des constante DC

L’opérateur qui associe à chaque variable aléatoire son espérance conditionnelle à X est un opérateur linéaire idempotent E(Y |X) est donc le projecteur orthogonal de Y sur LX

Interprétation géométrique (3)

E(Y |X) est une projection orthogonale sur LX, le minimum de

est atteint pour f(X)=E(Y|X).

( )( )[ ] ( ) 22 XfYXfYE −=−

f(X)=E(Y|X)

f(X)||

Poids de la combinaison linéaire - Résolution analytique

Pour chaque entrée x ∈ℜp on cherche à prédire une sortie réelle suivant un modèle linéaire.

f(x)=xtwEn supposant qu’on cherche à déterminer les paramètres w sur un ensemble d’apprentissage (x1, y1) … (xn, yn).

Le critère d’optimisation est l’erreur carrée moyenne (ECM)

( )( ) ( )XwYXwY

wxy)w(ECM

−−=

−= ∑=1

Poids de la combinaison linéaire - Résolution analytique (2)

Les dérivées partielles d’ordre 1 et 2 de ECM en fonction de Β sont :

Si X t.X est non singulière (i.e. det(X t.X )≠0), il existe alors une solution unique qui minimise ECM :

Pour une entrée X le modèle prédit la sortie :

XwY.X.w

∂∂∂

−−=∂

( ) YXXXw tt 1−=

( ) YXXXXwXY tt 1−==

Poids de la combinaison linéaire - Résolution analytique (3)

La solution de la régression vérifie

La réponse du modèle, est la projection orthogonale de Y sur l’espace des données.

( ) ( ) 0=−=− YYXwXYX ttw

( ) YXXXXwXY tt 1−==

Matrice de projection

Poids de la combinaison linéaire - Résolution VPG

Pour des variables X et Y centrées la solution de la régression est

D’après la relation de Pythagore

xyxx CCw 1−=

||Y||YY −

222 YYYY +−=

Minimiser ⇔ Maximiser 2

YY −2

⇔ Maximiser ( )Y

YY,Ycos =

Pour des variables centrées, cos(Y,f(X))=cor(Y,f(X)) ⇒ Lien avec l’ACCLaboratoire d’Informatique de Paris 6 14Massih-Reza.Amini@lip6.fr

Poids de la combinaison linéaire - Résolution VPG (2)

Le but de la régression est donc de trouver w qui maximise

La dérivée partielle de c par rapport à w

( )wCwY

YXwXw,Ycoscxx

( )wCCwCwYw

cxxwxy

xxt λ−=

∂∂ 1

xyxx CCw 1−∝

Le cas où Y réel régression

ii yy −ˆ

Le cas où Y∈{-1,1} classification

x t.β2 +γ

RécapitulatifRésolution de B-1Aw=λw

B = SwA = SB

Trouver la direction w qui discrimine au mieux les classes en projection

B = IA = Cxx

Trouver les directions w qui déforment le moins possible les distances en projection

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

Trouver les directions wx et wy qui maximisent le carré de corrélation entre X et Y

RLMTrouver la combinaison linéaire Xw la plus proche de

Y au sens ERM

Clustering contrainte avec des variétés géométriques

Algorithmes de Clustering

But : Regrouper (ou segmenter) une collection de données en différents ensembles, tel que les individus d’un groupe donné soient plus liés les uns des autres (au sens d’une similarité) qu’avec ceux d’autres groupes.

Un objet peut-être décrit par un ensemble de mesures ou par sa relation à d’autres objets.

Deux étapes itératives : Définition de la relation entre individus avec une mesure de similarité (distance euclidienne, score, …)Décision pour le partitionnement (entropie, …)

Algorithme de Kmeans

Clustering - Kmeans

20ème itération-4 -2 0 2 4 6

6Initialisation centroïdes

2ème itération-4 -2 0 2 4 6

6-4 -2 0 2 4 6

Algorithme CEM

∑ ∑∈

=ui Xx k

kyxptX

),(log1

Nouveaux types d’algorithmes de clustering

Clustering par contraintesOn utilise l’a priori sur les classes des exemples

Clustering dans l’espace impliciteOn utilise l’a priori sur l’espace avec les noyaux

Clustering structuréOn utilise l’a priori sur l’hiérarchie

Clustering utilisant l’a priori de classes et la structure des données

Idée nouvelle (2004)On cherche un graphe sans boucle connectant les exemples,On fait propager les étiquettes des exemples étiquetés sur ce graphe jusqu’à convergence.

Solution partielleSi on a plusieurs classes, il faut appliquer l’algorithme plusieurs fois à la suite sur chacune des classes.

Problème jouet en 2D: clowns

Méthode de clustering avec les variétés géométriques (Zhou et al. ICML 2004)

α=0.3

α=0.6

α=0.6, classe 2

Tadti crs3-n

Data & Analytics

Transcript of Tadti crs3-n

societehorticulturematane.comsocietehorticulturematane.com/PagesWeb/Informations/Potager 14 oct... · Le potager écologique n n n n n n n n Planification du jardin Préparation du

Saint Pierre et Miquelon - Food and Agriculture Organization · 2021. 2. 8. · Pierre et Miquelon Frank.urtizberea@equipement-agriculture.gouv.fr N/A N/A N/A N/A N/A N/A N/A N/A

Les Sens Pour saisir le monde.... Les sens n Stimuli n Principe général n Zones concernées dans le cerveau n La vue n Louïe n Gustation n Olfaction n.

GRANBY, CONNECTICUTcteco.uconn.edu/maps/town/SoilDrainage/SoilDrainage_Granby.pdf · !n!n!n!n!n!n!n!n!n!n!n!n!n!n!n!o g r a n b y h a r t l a n d s i m s b u r y s u f f i e l d e

Sujets abordés n Démographie n Marché du travail n Scolarité n Enquête des récents diplômés n Compétences exigées n Professions en pénurie n Emploi selon.

Cameroun - Carte de référence N 12 N 10 N 10 N 8 N 8 N 6 N 6 N 4 N 4 N 2 N 2 N 8 E 8 E 10 E 10 E 12 E 12 E 14 E 14 E 16 E 16 E NIGERIA TCHAD CENTRAFRIQUE GABON CONGO GUINÉE EQ.

COLLECTION YMAIGES - amonit.fr notre plan de charge, les délais ... N° M203 146 N° M204 ... N° M207bis 151 N° M208 152 N° M209 153 N° M1010 154 N° M1019 155 N° M1026 156 N°

Ua U N U N · Ua U U U N N N N N N N N O S E La commune est soumise au risque d'exposition au plomb - art.L32.85 du code de la Santé Publique et Arrêté Préfectoral du 22.12.2000

LE N°1 DES MAGAZINES SANTÉ GRAND PUBLIC N 78 LP* N 77 *LP : Lettre Pharmacien BIEN-ÊTRE & santé LP N 81 LP* N 79 LP* N 80 N 343 LP* N 82 N 344 BE&S Kids N 5 LP N 83 LP* N 84 LP*

ATTRACTIVITÉ DE LA FRANCE POUR LA RECHERCHE CLINIQUE · Phase 1 Phase 2 Phase 3 Phase 4 N =1 349 N =1 140 N =1 008 N =902 N =823 N =786 N =601 N =589 N =337 N =311 N =305 N =289

n n n n n n n n n - Emailing France : 1ère agence d’email ... Flyer se réserve le droit de demander tout document supplémentaire pour la création du Compte Safar Family. Les

n n n ET DIAGNOSTICS RAISONS n n n n n … · 2 7 domaines d’expertise pour vous faire évoluer ... entreprises, premier organisme de formation en France en diagnostics techniques

Prima Pagină/Home pagemmuncii.ro/j33/images/Documente/MMJS/Cariera/04012019... · 2019. 1. 4. · o o cn 1 o 3 o n (D o n o n n c n n n O O n N c o o n o 3 n o c O o O CJQ 3 n c

q]Ý0m*l4mxl4`ó[ S:WßVóÿ `ó[ gY' j!ÿ...N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N N

postera4 - recherche-geosciences.fr · I-DCW3 E 4-SVAL 28' E 24 81' e 120 E 12' E 80" 7g N 77 N 76" N 80 N 78 N' 77" GTOP030 (141) 80 N 500 m 77 N" N 77 N 1 OHarmonic degree n up

Exercice N°5 Exercice N°2 Exercice N°3 Exercice … · Exercice N°1 Exercice N°2 Exercice N°3 Exercice N°4 Exercice N°5 Exercice N°6 Exercice °7. Exercice N°8 Solution

jeudi 4 juillet 2019 - Progepi · n°2 n°3 n°4 n°5 n°6 n°8 n°9 n°10 n°11 n°7 2016 valorisation thermochimique des combustibles solides Mot d’introduction PROGEPI et le

lespetitspedagogues.files.wordpress.com€¦ · Web view2019/09/05 · Exercice n 1 Exercice n 2 : Exercice n 3 : Exercice n 4 : Exercice n 5 : Exercice n 6 : Exercice n 7 : Author

n n n ENVIRONNEMENT RAISONS n n n n n - … · l’EFQM Définir une ... Optimiser le Document unique ... Management, gestion de projet et efficacité personnelle Ressources Humaines,

Appel à projets Stock E 2007 - ANR · 2019. 4. 5. · cycle n°1 cycle n°2 cycle n°3 cycle n°4 cycle n°5 cycle n°7 cycle n°10 cycle n°15 cycle n°20 cycle n°30 65 70 75 80

LE N°1 DES MAGAZINES SANTÉ GRAND PUBLIC N 78 LP* N 77 LP : Lettre Pharmacien BIEN-ÊTRE & santé LP N 81 LP N 79 LP* N 80 N 343 LP* N 82 N 344 BE&S Kids N 5 LP N 83 LP* N 84 LP*