Apprentissageà partirdes données pour les systèmes ...urtado/Slides/Couturier_26_05_2010.pdf ·...

Apprentissage à partir des données

pour les

systèmes mécatroniques

1Séminaire LGI2P P. CouturierLe 26/05/2010

systèmes mécatroniques

Pierre Couturier Pierre Couturier

etet

RinaRina, Michael, , Michael, YoussefYoussef, , MouaelMouael, , ……

LGI2P, LGI2P, EcoleEcole des Mines d’Alès en des Mines d’Alès en CévennesCévennes

[email protected]@mines--ales.frales.fr

• Mécatronique ?

� Le système à faire

� Le système pour faire

• Plateforme Mécatronique Ales-Nîmes

� Quoi, qui, pourquoi

• Apprentissage par les données et systèmes mécatroniques

� Contexte


� Contexte

� Les RNFs

� Et le produit à faire

> Apprentissage supervisé de réseaux bouclées

> Apprentissage par renforcement distribué

> Apprentisage non supervisé

� Et le système pour faire

• Et Maintenant…

[NF E 01[NF E 01--010]010]

• Produit mécatronique : produit ayant la capacité de percevoir son milieu environnant, de traiter l’information, de communiquer et d’agir sur son milieu, et présentant un niveau complet d’intégration mécatronique, du point de vue fonctionnel et physique.


• Mécatronique : démarche visant l’intégration en synergie de la mécanique, l’électronique, l’automatique et l’informatique dans la conception et la fabrication d’un produit en vue d’augmenter et/ou d’optimiser sa fonctionnalité.

Fonctions de communication, traitement de

l’information, rétroaction (gestion de l’énergie,

diagnostic). Forte autonomie

Ex: vanne sans fil

Ex: axe

Ex: frein électromécanique

Intégration fonctionnelle

SYSTEMES

Le produit à faire


Ex: axe piloté

Quelques fonctions de communication

ou de traitement de l’information.

Faible autonomie.

Ex: roulement instrumenté

Intégration physiqueCOMPOSANTS

parties physiquement

distinctes.parties physiquement

fusionnées.

Processus de cycle de vie suivant

Le système

pour faire


ISO/CEI 15288

XP E 01-013

6Séminaire LGI2P P. CouturierLe 26/05/2010 6

XP E 01-013


D’après XP E 01-013


La réussite d’un projet mécatronique repose sur une coopération pluridisciplinaire efficace, dans laquelle les membres du groupe exposent et défendent leur point de vue dans le but d’obtenir une décision consensuelle..

La plate-forme mécatronique Alès-Nîmes

Mesure physique

Prototypage

Projetselève

ProjetsInnov’up

ProjetsR&D

http://www.mecatronique.mines-ales.fr/


Modélisation, Conception simulation

Mesure physique Instrumentation

Conception, Prototypage et Caractérisationde Systèmes Mécaniques Complexes

Equipe mécatronique (10 personnes)

Moyens et équipements de la plate-forme

• Modélisation, Conception, Simulation� Catia (CAO), SymDesigner (analyse

dynamique des solides), ANSYS (calcul par éléments finis)

� Orcad (CAO électronique), développement systèmes à microprocesseurs

� Amesim : Simulation multiphysique� Matlab/Simulink : traitement de signal,

identification, commande…

• Prototypage physique� Catia (CFAO) � Imprimante 3D+ équipement de coulée


� Imprimante 3D+ équipement de coulée sous vide

� Machines outils à commande numérique (fraiseuse 5 axes)

� Atelier de circuits imprimés (CMS)

• Mesure et test� Système d’acquisition et traitement des

signaux (Labview, Matlab…) � Machine à mesurer 3D (rétrofit)� Laboratoire d’optique appliquée (PC,

logiciels)

Fonctions de

communication,

traitement de

l’information,

rétroaction.

Autonomie

Intégration fonctionnelleExemples de projet


Quelques fonctions de

communication

ou de traitement de

l’information

(faible autonomie)

Intégration physique

parties physiquement

distinctes.parties physiquement

fusionnées.

• Mécatronique …


• Apprentissage par les données

� Contexte

� Les RNFs

� Pour le produit à faire

� Pour le système à faire




Apprendre à partir des données : contexte

Système complexe

Et pas de modèleformel exploitablemais des données

X3

Apprentissage à partir

des données

X3


X2

X1

• Ce que l’on observe :des points isolés dans un espace à ddimensions (d variables)

X2

X1

• Ce que l’on veut :construire un modèle à partir des données

Classification

Evaluation de fonction

Mémoire associative

Discrimination

Pour (1)



Correction d’erreurMémoire autoassociative

Evaluation de fonction inverse

Ou pour (2)


Recherche d’optimum

Avec des Réseaux de neurones formels…

• Propriétés des réseaux de neurones formels :

� Approximation universelle

� Apprentissage

� Généralisation

e1

e2

en

Σ fs

w1

w2

wn

° ° ° v=Σwi.ei

s=f(v)

v : potentiel neuronal

f : fonction dévaluation

Neurone formel


Réseau multicouche (statique)

entrées

sorties

...entrées

Cartes Auto-organisatrices Entrées temporelles

sortie

retards

Réseau bouclé

Propriétés des réseaux de neurones

• ApprentissageC'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau.

• Approximation universelleUn réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée


peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]).

• GénéralisationC'est la capacité du réseau à traiter correctement des données « similaires » à celles rencontrées pendant l'apprentissage.

• Mécatronique ?



� Contexte

� Les RNF





> Apprentissage par renforcement distribué

> Apprentisage non supervisé


• Et Maintenant …

Apprentissage supervisé

Apprentissage supervisé

?Entrée

Ecart

- +

Sobservée

Sortie


Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises (minimisation d’une fonction de coût).

Applications: Approximation de fonction, classification, prédiction

Application : Modélisation d’un système dynamique non linéaire [Couturier 97]

• Identification d’un actionneur à soufflets métalliques

u : commande de servovalve proportionnelle (V)

yp : position désirée (V)

y : position modélisée

Soufflets métalliques

air

150 mm

Soufflets métalliques

air

150 mm

),,,( 2121 −−−−= kkkkk uuyyfy


• Réseau bouclé multicouche

� à 1 couche cachée

� de 6 neurones et fonction tanh

150 mm150 mm

y

time in1/10 s

-3

-2

-1

0

1

2

3

4

0 100 200 300 400 500

yp

(V)

y : 3mm/V Sur base de test

(eqm0.02 en app.et 0.08 en test)

Apprentissage supervisé de réseau bouclé

∑ −− −=Nc

ikikk sdJ 2)(2

1

Fonction de coût :

)Ws,e,e(Rs k'1k2k

1kkk −−−−====

Exemple de fonction réalisée par le RN :d k

+-

s k

s k-1

e1k

ΣΣΣΣ f

e2k

ΣΣΣΣ ΣΣΣΣf f

Retard 1 période


∑=

−− −=i

ikikk sdJ0

)(2

Attention : le gradient à l’itération k dépend de toutes les valeurs de gradient antérieures.

=> temps de calcul croissant avec k

Règle d’apprentissage exploitant la matrice jacobienne (descente de gradient, algorithme de Levenberg-Marquart)

k

k

k

k

k

k

k

k

dw

ds

s

R

w

R

dw

ds 1

1

. −

−∂∂+

∂∂=

Méthode des copies [ESPCI 90-00]

e1k

e2k

e3k sk

ΣΣΣΣΣΣΣΣ

ΣΣΣΣ

f

11

f

f

Idsk-1

sk-2sk-1

1)Représentation canonique

2) Les boucles sont ouvertes et le réseau est dupliqué

3) Rétropropagation à travers la fenêtre temporelle

Variantes


Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage

sk

sk-1

ΣΣΣΣΣΣΣΣ

ΣΣΣΣ

f

e1k

e2k

e3k f

f

Idsk-1

sk-2

ΣΣΣΣΣΣΣΣ

ΣΣΣΣ

f

e1k-1

e2k-1

e3k-1 f

f

Id

sk-2

sk-3

fΣΣΣΣΣΣΣΣ

ΣΣΣΣ

f

e1k-Nt+1

e2k-Nt+1

e3k-Nt+1 f

Id

sk-Nt

sk-Nt-1 .

.

.

.

Copy 1Copy Nt Copy 2

Variantes

selon initialisation

Commande de processusPosition (V)

Tension de


Commande à objectif de poursuite indépendant

-Dynamiques indépendantes-Contrainte sur la commande (saturation)

Tension de servovalve (V)

Application : Synthèse d’une loi de commande par RNFbouclés

yk+1

Id IdIdId retard 1 période

yk yk-1 uk-1uk

+-

ydk+1

Yp UYp

Systèmecontrôleur neuronal

Y c U

UnModèle neuronal dusystème

Y -

Yd

+


Représentation sous forme canonique du bloc de commande

Modèle neuronaldu système

Id: fonctionidentité

uk-1 uk-2 yckyk yk-1 yk-2

Contrôleur neuronal

Schéma de commande

+Y

Yp

Questions encore ouvertes sur la méthode des copies

1) Choix de Nt ?

=> Comparer calcul sur fenêtre Nt et fenêtre Nt-1 (c’est lourd)

=> Dynamique du système ?

2) Influence prévision à Nt coups prépondérant par rapport au calcul plus précis du gradient ?

3) Dilemme Biais Variance

4) Apprentissage à pas échantillonnage décroissant


4) Apprentissage à pas échantillonnage décroissant

Apprentissage par renforcement

Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique".

Applications : Approximation de fonction, classification, discrimination, optimisation

Critique

Situation ou états

Renforcement

r

Environnement

Actiona



10 ≤≤γ( ) { }aassrrEasQ tttt ==+⋅+= ++ ,...., 21 γππ

L’apprentissage par renforcement est généralement basé sur l’estimation d’une fonction utilité, par exemple Q(s,a).

Le but est de trouver la politique π* qui maximise Qπ(s,a)


En essayant continuellement, on finit par réussir.Ou, en d'autres termes : plus ça


rate, plus on a de chance que ça marche ...


• Initialiser arbitrairement Qπ(s, a)• Répéter (pour chaque épisode) :• Choisir un état initial s• Répéter (pour chaque pas) :• Prendre action a selon une stratégie issue de Q (ε glouton).


• Observer r, s ’• Actualiser Qπ(s, a)• s ←s ’• Jusqu’à fin de l’épisode• Jusqu’au dernier épisode

Equilibre à trouver entre Exploration/Exploitation

Apprentissage par renforcement distribué

Renforcement r1 Renforcement r2 Renforcement rM

Mémoireassociative

Acteur 1

a1

Environnement

S

Critique

Mémoireassociative

Acteur 2

a2

Mémoireassociative

Acteur M

aM

…..Renforcement r1 Renforcement r2 Renforcement rM

Mémoireassociative

Acteur 1

a1

Mémoireassociative

Acteur 1

a1

Environnement

S

CritiqueCritique

Mémoireassociative

Acteur 2

a2

Mémoireassociative

Acteur 2

a2

Mémoireassociative

Acteur M

aM

…..


D2

D3

ProactionRétraction

D3D2D1G4G5G6

D1G6

G5

G4

A

A

Dmax = 3

D2

D3


D3D2D1G4G5G6

D1G6

G5

G4

A

AD2

D3


D3D2D1G4G5G6

D1G6

G5

G4

A

A

D3D2D1G4G5G6

D1G6

G5

G4

A

A

Dmax = 3D3D2D1G4G5G6

Dmax = 1

D3D2D1G4G5G6

D3D2D1G4G5G6

Dmax = 1

D3D2D1G4G5G6

Dmax = 1

D3D2D1G4G5G6

D3D2D1G4G5G6

Dmax = 1

D3D2D1G4G5G6

Dmax = 5

D3D2D1G4G5G6

D3D2D1G4G5G6

Dmax = 5

R3R2R1L3L2L1

retraction

L1

R3

proaction

R3R2R1L3L2L1

retraction

L1

R3

proaction

Apprentissage de la marche

Application : apprentissage de la marche

Q(s,a)

2 actions a

6 4 ét ats s

1 2

64 état s s

Acteur 1

Acteur 6

Q(s,a)

2 actions a

6 4 ét ats s

1 2

64 état s s

Acteur 1

Acteur 6

2 actions possibles par patte : proaction, rétraction

Pénalité : r = - 1 si Récompense : r = +1 si

Chute lors d'une proaction Pas de chute lors de la proaction

L'ordre de proaction est répété deux fois de suite.

Le mouvement de rétraction a dépassé la durée minimale Dmin

Le mouvement de rétraction a une durée trop longue (>Dmax) ou trop courte (<Dmin)

Toutes les pattes sont au sol


2 actions a2 actions a

6 tables Q(s,a)

Toutes les pattes sont au sol

Les mouvements de proaction se propagent de l 'avant vers l 'arrière

α>0,

( ) ( ) ( ) ( )[ ]{ }⋅′⋅γ+−α−← π

∈′

πππ a,'sQmaxra,sQa,sQa,sQAa

Actualisation des valeurs Q(s,a) pour chaque mouvement

10 ≤≤γ{Erreur de prévision à 1 coup}

Apprentissage multi-acteurs

a23 a2

1 a22 a2

3 a21 a2

2

Q2(s, a) pour l’acteur 2

a12

a13

a11

3 0

1

-3 0

2

0

2 -2 3 -1 2

0

-2

0

9

-1

Q1(s, a) pour l’acteur 1

1 a12

a13

a11 ai

1

ai2

ai3

Qi(s,a)

0

-2

4

individuel

collectif

altruiste

égoïste

Pareto optimal Equilibre de Nash


Cas de 3 acteurs

Pour chaque état s et acteur i

ai = 1

aj = 1aj = 0 aj = 0ak= 0

ai = 0

ak = 0aj = 1ak = 1 ak = 1

23

1 -51

5

-1

-3ai = 1

aj = 1aj = 0 aj = 0ak= 0

ai = 0

ak = 0aj = 1ak = 1 ak = 1

23

1 -51

5

-1

-3

1) Acteur i choisit l’action 1 (gain 5)

2) Acteurs j et k choisissent 0 et 1

Q(s,a i=1,aj=0,ak=1) est actualisée[Littman 01]

Contrôle de trajectoire et de posture [Zennir 05]

Posture initiale Posture finale

Position optimisée

Ressorts

PQ

PR Posture de

référence

pi qi

ri ri

Initialiser Qi(si, a1, ...,a i-1, ai, a i+1, ... aK) à 0 pour tout i

Pour tout épisode

y Ymax

x

2∆θ f 2∆y f

O xG

°

°

G

Changement de trajectoire (marche tripode, amplitude des pas +/- a).


x

y

x

yy

xx

x

y

x

yy

xx

x

y

x

yy

xx

Pour tout étape de l’épisode

Pour tout acteur i du même groupe

Choisir ai d’après Qi (choix ε - glouton)

Observer a1,..,a i-1, a i+1, ... aK , si’ et ri

Réactualiser :

Qi(si, a1,..,a i-1, ai, a i+1, ... aK) � Qi(si, a1,..,a i-1, ai, a i+1, ... aK) +

αi .[r i+γi .max a’1,…,a’K Qi(si’, a’1,..., a’ i-1,,a’i, a’ i+1,… a’K) -Qi(si, a1,..,a i-1, ,ai, a i+1, ... aK)]

si� si’

TD(λ) Prédiction à n pas

R (s) = rt+1 + γ.rt+2 + ... +γn-1.rt+n + γn.R(s’)

Si à t on évalue l’utilité de s visité à t’, on note Vt (st’)

δt (n) (st) = Vt (st) - [r t+1 + γ.rt+2 + ... +γn-1.rt+n + γn. Vt (st+n)]

On construit la fonction utilité Vt (s) qui approche R(s) lorsque t grand

L’erreur de prédiction à n pas est


δt (st) = Vt (st) - [r t+1 + γ.rt+2 + ... +γ .rt+n + γ . Vt (st+n)]

δt λ (st) = δt

(1) (st) + λ* δt (2) (st) + .. λn-1

*δt (n) (st) + …

Et on somme les erreurs de prédiction à n pas, n variant, en privilégiantles erreurs plus récentes (0<λ<1)

Alors

Vt (st) ← Vt (st) - α. δt λ (st)

V k (s k-2) ou

Q k (sk-2,ak-2)

δδδδ1111k-2 δ2

k-2

δδδδ1111k-1

δ3k-2

δ2k-1

r k-1 r k r k+1

r k-1 + γ. r k r k + γ. r k+1

r k-1 + γ. r k+ γ 2. r k+1

--

-

-

-

Chantier en cours : cas où Vk ou Qk est une mémoire à réseaux de neurones sur une fenêtre temporelle de Nt périodes …


γ

γ

γγ γ

2

23

γ

k-2

Q k (sk-2,ak-2)

V k (s k-1)

ou Q k (sk-1,ak-1)

V k (s k) ou

Q k (sk,ak)

V k (s k+1) ou

Q k (sk+1,ak+1)

δδδδ1111k

-

-

Calcul des erreurs à rétropropager sur chaque copie du même réseau de neurones.

V k (s k-2) : δ1k-2 + λ.δ2

k-2 + λ2.δ3 k-2

V k (s k-1) : δ1k-1 + λ.δ2

k-1 -γ.δ1 k-2

Ainsi, si Vk ou Qk est une mémoire à réseaux de neurones sur une fenêtre temporelle de Nt= 4 périodes …


V k (s k) : δ1k - γ.δ1

k-1 - λ .γ2.δ2 k-2

V k (s k+1) : - γ.δ1 k - λ .γ2.δ2

k-1 -λ2.γ3.δ3 k-2

Apprentissage non supervisé

Ex: placer les

gagnant

voisin 1

voisin 2

1 Compétition

donnée

2 Adaptation

xx


Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.

Applications : Quantification vectorielle, discrimination, classification

Ex: placer les représentants (neurones)dans la distribution de données.

Voisinage : k+proches voisins

ou voisins naturels )( 2d

nO

O(n.(d+log(n)))

Modèle discret Modèle linéaire Modèle non linéaire

Modèle de variété [Aupetit 01]


Voisinage γ-Observable [Aupetit 01]

• Principe :

v

vi

wiii wvv ⋅+⋅−= γγ )1(

vi wiv

γ0 1

• Propriétés : O(d.n²)


Tous les représentants

γ=1Non-convexité

potentielle

0.5<γ<1Inclus dans

voisinage Naturel

0<=γ<=0.5

Plus-proche voisin

γ=0

• Propriétés : O(d.n²)

Représentation de la topologie

Principe : Competitive Hebbian Learning [Martinetz94]relier le 1er et 2ème plus proches représentants de la donnée courante

Résultat :Triangulation Induite de Delaunay


n=3 n=100n=20n=7

Interpolation

)()()( xfxxf ii

i∑= ϕ

Modèle

Sortie linéaire

Fonction Noyau ϕ

Représentant

Chevauchement Pas de chevauchement

Sortie modèle


Noyaux de Voronoï induits

Chevauchementpas orthonormalité

Pas de chevauchementorthonormalité

Noyaux de Voronoï Induits en Approximation de Fonctions

• Identification d ’un préhenseur électropneumatique

),,,( 2121 −−−−= kkkkk uuyyfy 4

0

-4

uk yk

Volts


• Résultat : EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé

[Couturier97] 54 paramètres au lieu de 37.

T = 0.1 s

1

0

-1

-4

Ecart entre sortie observée et modèleVolts

Unitéy : 3mm/Volts

ProgrammeProgramme

• Mécatronique …



� Contexte

� Les RNF






Conception de système multidisciplinaire [Mouelhi 2010]

interdisciplinarité multi-domaines

Problém

atiquem

éthodologiques43Séminaire LGI2P P. CouturierLe 26/05/2010

Ingénierie Système

Propositions

méthodologiques

L’IS , cadre structurant les activités du cycle de développement



Cycle de développement de systèmes [Faisandier’05]


Processus techniques d’IS : « Phases » de conception et « activités support » [Faisandier’05]

?

Conception de système multidisciplinaire [Mouelhi 2010]

Couplage entre disciplines

interdisciplinarité multi-domaines

Grand nombre de solutions possibles et de dimensions

Nombreux critèrescertains contradictoires

Problém

atiquem

éthodologiques


Ingénierie Système

Méthodes MMOMéthodes MDOMéthode de visualisation

Algorithmes pour le calcul du front de Pareto (a priori et a

posteriori)

Cartes auto-organisatrices

Propositions

méthodologiques

Outils

Processus support outillé =>

Exemple illustratif Cahier des charges :- Variables :

- Longueurs des bras : L1, L2- Position de la base : Xb, Yb- Matériau- Sections et épaisseurs des bras- Performances dynamiques(dépassement, temps de réponse)- …

- Objectifs :- Minimiser la flèche- Maximiser la zone atteignable


Robot planaire à deux degrés de liberté

- Maximiser la zone atteignable- Minimiser le poids- Minimiser la puissance- …

- Contraintes :- Couvrir l’espace de travail- Limitations des domaines devariables

Variables et objectifs de conception

Variables d’optimisation : 10Longueur du bras 1 L1=0.1 : 1.5 (m)

Longueur du bras 2 L2=0.1 : 1.5 (m)

Emplacement base Xb = (xmin-L/2) : (xmax+L/2) (m)

Yb = (ymin-W/2) : (ymax+W/2) (m)

Orientation {droite, gauche}

Epaisseur/section r = 0.1 : 0.5

Matériau {cuivre, alu, acier}

W


Matériau {cuivre, alu, acier}

Temps de réponse ST = 1 : 3 (s)

dépassement 5%

Critères de conception : 7Maximiser la région accessible : [1,2] * (L*W)

Minimiser la flèche : [0,10] mm

Minimiser le poids : [0,2] Kg

Minimiser la puissance par KP{1,2}: [0,20], KD{1,2}: [0,20]

Géométrique

Résistance des matériaux

Dynamique

L

Résolution MDO « All At Once »

GéometrieRésistance des matériaux

Dynamique

Xb, Yb Matériau, Moment de flexion maxi dépassement, temps de réponseL1, L2

L1, L2

Variables de conception

Disciplinesm1,m2

L1,L2


Résolution du couplage par l’approche AAO

Géometriematériaux

DynamiqueL1, L2

Flèche minimale

Zone atteignable maximale

Puissanceminimale

Objectifs de conception

L1,L2

Principe de l’algorithme HTE

1) Phase de recherche exhaustive

pas max

Si Liste Tabou

Liste Pareto

Intitaliser les listes Tabou et Pareto


4) Mettre à jour les listes

5) Reprendre depuis 2) tant que le critère d’arrêt n’est pas atteint

2) Réduire pas 3) Pour chaque voisin de Si

SiSk

Ajouter Sk si ni Tabou ni dominée

Algorithme HTE


Quelques paramètres de HTE

• Quand et Où mettre à jour la liste de Pareto ?


Juste après la solution courante

Où ?

• Liste Tabou :• Chaque fois qu’une solution est choisie, elle devient Tabou pendant un certain nombre d’itérations : toute la solution est mémorisée

• Pas adaptatif (pour les variables continues) : • Pas = différence entre deux valeurs numériques voisines dans l’intervalle d’une variable continue• Un pas initial est fixé et est mis à jour en fonction de l’évaluation de deux

Paramètres tabou


• Un pas initial est fixé et est mis à jour en fonction de l’évaluation de deux solutions voisines

• Intensification :• Les zones les plus prometteuses de l’espace de recherche sont mémorisées.• Après un certain nombre d’itérations infructueuses, on se déplace vers une de ces zones et on y affine la recherche (solutions non visitées, diminution des pas, …)

• Diversification :• Après un certain nombre d’itérations infructueuses, une nouvelle solution de départ est choisie au hasard. Toutes les structures initialisées et on recommence la recherche

Calcul du front de Pareto : résultats de simulation

Algo Temps

de

calcul

Nombre de

solutions

Qualité du front Caractéristiques de l’algorithme

Solutions Couverture Pond. Param. Explor. Rapidité Sol. indiv.

Tabou 250 s 1600 ++ - - - - ++ ++


Tabou 250 s 1600 ++ - - - - ++ ++

Hybride 2295s 7801 + + + + + + +

B&B > 4j 5209 +++ ++ + ++ ++ -- +++

Tabou : F = Def /∆Def + W /∆W + KP1 /∆ KP1 + KD1 /∆ KD1 + KP2 /∆ KP2 + KD2 /∆ KD2 – AR /∆ AR.

Visualisation du front de Pareto Self-organizing Map [Kohonen,

1989]

SOM: basée sur un processus d’apprentissage non supervisé.

�� Chaque prototype de la base est un vecteur dont les composantes sont les variables de conception et les valeurs de critères. Les nœuds de la carte sont des vecteurs de même nature que les prototypes.

�� Déplier une carte de 2 dimensions (un ensemble de représentants ou nœuds connectés entre eux) dans un ensemble de données


�Dépliement de la carte : de manière itérative, choisir au hasard un prototype X dans la base et rapprocher le noeud le plus proche (BMU) et ses voisins vers le prototype.

�A la fin du processus, les nœuds ont été placés dans la distribution de données en respectant les propriétés de densité et de voisinage de la distribution.

Cartes auto-organisatrices de Kohonen [Kohonen, 1989]

Après 50 itérations


57Séminaire LGI2P P. CouturierLe 26/05/2010Figures obtenues avec l’applet : http://www.neuroinformatik.ruhr-uni-bochum.de



Exemple de carte de Kohonen

Variables de conception Objectifs de conception


Résultats : Exemple d’une solution

Exemple de solution:

L1=0.7m, L2=0.6m

D1= 4cm, D2=3cm

ST = 2s

Flèche < 3mm


Flèche < 3mm

Poids < 1kg

Résultats : Exemple de solution


Application SOM: Domaine de validité de moteur/réducteur [Mouehli 08]

Exemple d’application des cartes SOM de Kohonen

Ensemble Moteur/réducteur

Tc : Couple moyen du moteur (N m),T : Couple maximum du moteur (N m),


Trajectoire, vitesse et accélération en fonction du temps;Accmax = 10 rds -2, Vmax = 32 rds -1 and Charge = 0.4 N.m

Tp : Couple maximum du moteur (N m),ωn,max : Vitesse max du moteur (rad/s),Jm : Inertie du moteur (Kg/m2),mm : Masse du moteur (Kg),Jg : Inertie du réducteur (Kg/m2),ng : Rendement du réducteur,ωg,max : Vitesse max du réducteur (rad/s),mg : Masse du réducteur (Kg),n : Facteur de réductionTg,eq : Couple du réducteur côté moteur (N m),Tl : Couple résistant sortie réducteur (N m),θl : Position (rad).

1/

-Accélération max: [50..250] rad/sec2, -Vitesse max: [4..32] rad/sec,-Charge inertielle: [0.1..0.5] N.m, -Caractéristiques des moteurs et réducteurs.

La combinaison moteur/réducteur qui minimise un des critères à optimiser :- Couple moyen (Trms),- Puissance maximale, - Energie consommée,- Poids,…


Base de données de dimension d

- Visualisation des domaines de validité des composants- Mémoire auto-associative à interroger

Apprentissage non-supervisé (SOM)

2/

Outil de visualisation


Cartes en 2D montrant les Clusters des moteurs (à g auche) et des réducteurs (à droite)

- Les nombres correspondent aux classes (ou types) de moteurs ou réducteurs,

- Les clusters correspondent aux domaines de validité des différents moteurs et réducteurs,

Outil de visualisation

Outil de visualisation�� Moteur 1 si contrainte sur accélération

relâchée


�� Absence de solution lorsque les valeurs de

Accmax, Vmax et de charge sont élevées,

�� Moteur 2 couvre les valeurs de Accmax,

Vmax et charge,

• Mécatronique … Vous avez dit Mécatronique ?



• Et Maintenant


Processus support optimisation / évaluation en conception préliminaire

interdisciplinaire

Couplage entre disciplines

Grand nombre de solutions possibles et

de dimensions

Optimisation multi-objectif et complexité

combinatoire

Méthodes d’optimisation multiobjectif

Méthodes OMDMono/multi niveaux

Méthode de visualisation

Pro

blém

atiq

ueP

ropo

sitio

nsm

étho

dolo

giqu

es


multiobjectifMono/multi niveaux visualisation

Aide à la décisionGestion des

préférences, utilités…?

Pro

posi

tions

mét

hodo

logi

ques

Out

ils

Résolution progressiveModèles de régression approchés par RNF

+

Ingéniérie système en mécatronique pour PME

Processus support évaluation en conception préliminaire interdisciplinaire (choix de principes

de solutions techniques)

Conception architecture organiqueFonctions=>Organes

Processus itératif

Pro

blém

atiq

ueP

ropo

sitio

nsm

étho

dolo

giqu

es

Pilotage processus de projetmultisite, multitechno,

multilangage

Environnement intégré pour


Processus itératifvirtuel �réel

Top/down � Bottom/up

Contribution – Proposition méthodologique

Pro

posi

tions

mét

hodo

logi

ques

Out

ils Recherche doctorant désespérément

Environnement intégré pour plusieurs métiers

PLMMM

Outils de travail collaboratifOrganisation BE virtuels, etc…

projet INCA ?

« Outillage » actuel du processus de conception mécatronique (J-Y Choley 2010)• Différentes vues du système: fonctionnelle, système, physique;• Le comportement et la structure sont distribuée sur ces vues;• La plupart de ces outils ne peuvent pas échanger des données

structurées; l’optimisation est difficile.

Niveaux Domaines Langages, outils

Maquettesystème

fonctionnelle

Mécanique APTE (NF X50-150), FAST,IDEF (Sadt), UML, SysML ...

Electronique

Informatique, automatique UML, SysML , B-Method …


Informatique, automatique UML, SysML , B-Method …

Maquette système

« logique »

Mécanique Matlab-Simulink, Bond graphModelica, Dymola , AMEsim, Adams...

Electronique Matlab-Simulink, Bond graph, Modelica, Dymola, AMEsim, Spice, VHDL-AMS...

Informatique, automatique Matlab-Simulink, Modelica, DymolaAMEsim, SDC (Grafcet)

Autosar-Modelisar, B-Method...

Maquette physique 3D

Mécanique Catia, Solidworks, OpenCascade…

Electronique Cadence, Mentor Graphics…

Infomratique, automatique dSPACE (HIL), Autosar-Model isar, B-Method…

Illustration de plusieurs applications des réseaux de neurones formels pour des systèmes mécatroniques

Système à faire : perception/traitement/communication/rétroaction

� Modèle dynamique de système non linéaire> Calcul des paramètres de réseaux dans schémas avec bouclages

� Apprentissage par renforcement> Apprentissage en environnement distribué (influence réciproque des acteurs),

� Apprentissage non-supervisé

Conclusion


� Apprentissage non-supervisé> Cartes auto-organisatrices, topologie de la carte imposée ou non, approximation

de variétés

Système pour faire : multi disciplinaire/site/technique/objectif� Définition des domaines de validité des solutions en fonction des

spécifications techniques ou des critères

� Assister l’homme dans des tâches nécessitant volumes importants de calcul et de données ou un choix de méthodes adaptées à son problème.

« Il semble illusoire de penser que la compétence enmécatronique s’acquière par une expertise surl’ensemble des domaines techniques (un expertunique, spécialiste dans tous les domaines). »

« La compétence mécatronique n’est pas non plusune compétence de généraliste qui connaît

Selon XP E 01-013

Économique, performant, eco-durable, sûr ?, et appétissant…


une compétence de généraliste qui connaîtsuperficiellement tous les domaines mais dontl’expertise se concentre plutôt sur les processus demanagement plutôt que sur les processustechniques. »

Apprentissageà partirdes données pour les systèmes ...urtado/Slides/Couturier_26_05_2010.pdf ·...

Documents

Transcript of Apprentissageà partirdes données pour les systèmes ...urtado/Slides/Couturier_26_05_2010.pdf ·...