RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les...

30
Louis de Montera 3 ème année Supélec option AIE RAPPORT DE STAGE RESTITUTION DE LA PLUIE A PARTIR DE DONNEES RADIOMETRIQUES SATELLITAIRES Stage réalisé au Centre d’étude des Environnements Terrestres et Planétaires

Transcript of RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les...

Page 1: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

Louis de Montera3ème année Supélecoption AIE

RAPPORT DE STAGE

RESTITUTION DE LA PLUIE A PARTIR DE DONNEESRADIOMETRIQUES SATELLITAIRES

Stage réalisé au Centre d’étude des Environnements Terrestres et Planétaires

Page 2: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

2

SOMMAIRE

INTRODUCTION ......................................................................................................3

Télédétection de l’atmosphère dans le domaine des hyperfréquences ......................3Motivation et approche............................................................................................5Inversion par réseau de neurone ..............................................................................5

LA BASE DE DONNEES ..........................................................................................9

Le taux de pluie utilisé ............................................................................................9Description des différentes bases de données...........................................................9Construction des bases de données ..........................................................................9

LES RESAUX DE NEURONES MLP (Multi Layer Perceptron) ..............................12

Le neurone élémentaire .........................................................................................12Réseau multicouche ..............................................................................................13Apprentissage .......................................................................................................13

LE RESEAU MULTI-EXPERT................................................................................14

Propriétés de cette architecture ..............................................................................14Etude du partitionnement ......................................................................................15Choix du nombre d’expert.....................................................................................16Choix du coefficient d’apprentissage.....................................................................17fonction linéaire ou exponentielle en sortie............................................................18Architecture MLP des experts et du réseau contrôleur ...........................................18Augmentation artificielle du nombre d’exemple ....................................................19initialisation des poids...........................................................................................20Statistique de la base d’apprentissage ....................................................................21figure 19 : biais moyen en fonction du taux de pluie..............................................21Utiliser la topologie...............................................................................................22Comparaison des performances en fonction du taux de pluie .................................23Comparaison avec l’algorithme standard ...............................................................24Un exemple de généralisation................................................................................25Erreur d’extrapolation ...........................................................................................26

LA SELECTION DE VARIABLE............................................................................27

La méthode ...........................................................................................................27Le critère HVS : a Heuristic for Variable Selection ...............................................27Résultats ...............................................................................................................28Etude des variables d’entrée ..................................................................................28

CONCLUSIONS ......................................................................................................29

BIBLIOGRAPHIE....................................................................................................30

REMERCIEMENTS.................................................................................................30

Page 3: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

3

INTRODUCTION

L’étude du cycle de l’eau, et en particulier des précipitations, a depuis toujours suscité un grand intérêtcar les enjeux sont aussi importants que variés. L’aspect économique joue un rôle de plus en plus grand. Lacompréhension des phénomènes de sécheresses ou d’inondations est devenue indispensable au choix et à larépartition des cultures agricoles. Nos connaissances sur les cyclones et les orages violents, bien que souventinsuffisantes, permettent aujourd’hui de faire des prévisions à court terme et de limiter les dégâts humains etmatériels.

Les études liées au cycle de l’eau interviennent également dans des secteurs de haute technologie. Ledéveloppement et la mise en place de réseaux de télécommunications hautes fréquences nécessitent une bonneconnaissance des interactions qui existent entre les ondes électromagnétiques et les particules d’eau présentesdans l’atmosphère. En effet, la pluie constitue la principale source de perturbation de la propagation des ondeshyperfréquences.

La forte variabilité à la fois spatiale et temporelle des précipitations les rend extrêmement difficiles àdéterminer. Le premier instrument, encore utilisé actuellement pour mesurer la pluie, est le pluviomètre. Il estconstitué d’un récipient permettant de mesurer le contenu d’eau liquide tombée en un temps donné. Ce n’estqu’après guerre que des radars installés au sol en réseaux ont fourni pour la première fois une descriptiontridimensionnelle des systèmes orageux dans leur globalité, ainsi que des estimations de précipitations sur deszones étendues de l’ordre d’une centaine de kilomètres. Le développement de tels réseaux sur des régionscontinentales sensibles est toujours d’actualité. Néanmoins, de tels outils ne permettent aucune estimationsystématique des précipitations au-dessus des océans, qui représentent plus de 70 % de la surface du globe.L’objectif est ici de présenter le contexte scientifique concernant la télédétection hyperfréquence spatiale.

Télédétection de l’atmosphère dans le domaine des hyperfréquences

Lancé le 20 juin 1987, le premier radiomètre imageur SSM/I apporta la preuve de l’efficacité destechniques de télédétection hyperfréquence spatiale pour l’étude des précipitations. Dix ans plus tard, unnouveau satellite de télédétection TRMM a été lancé. Actuellement, nous nous trouvons dans une phased’intensification des programmes par capteurs hyperfréquence spatiaux avec notamment le lancement du premierradiomètre « franco-indien » MADRAS sur MEGHA-TROPIQUES en 2005, et du radiomètre japonais AMSRsur ADEOS-2 en 2001. La future mission nippo-américaine GPM (constellation de 9 satellites) devrait voir lejour en 2007.

Les radiomètres cités précédemment sont des instruments qui mesurent le rayonnement émis par lesconstituants de l’atmosphère et par la surface. La mesure radiométrique est appelée température de brillance, ellecorrespond à la puissance du rayonnement naturel de la scène observé. Les fréquences d’observations se situentdans la gamme 1 GHz à 100 GHz correspondant à des longueurs d’onde de 30 cm à 3 mm. La grandedépendance de la mesure radiométrique aux différents constituants de l’atmosphère rend la restitution desprécipitations délicate. Aujourd’hui, on résout ce problème par l’utilisation systématique de radiomètres multi-canaux permettant d’isoler les différents signaux atmosphériques : la glace aux hautes fréquences, la vapeurd’eau à 22 GHz et l’eau liquide aux basses fréquences.

L’estimation de la quantité de précipitations à la surface est donc basée sur la modification durayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1).

Page 4: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

4

Figure 1 : schéma conceptuel de la mesure radiométrique au-

dessus de l’océan.

Les radiomètres hyperfréquences fournissent aujourd’hui de manière quasi continue de grandesquantités de mesures à l’échelle globale, avec lesquelles il est possible d’estimer les paramètres atmosphériquestels que le taux de précipitation. Ils permettent ainsi de pallier l’inhomogénéité des couvertures spatiales ettemporelles des mesures conventionnelles in situ obtenues par navires océanographiques et par bateauxmarchands. La figure 2 illustre la couverture des mesures TMI d’une journée.

océan

bruitcosmique

Absorption par lavapeur d’eau etl’oxygène

absorption et diffusionpar les hydrométéores

Emission par la surface

Page 5: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

5

Figure 2 : Couverture globale des données TMI d’une journée. Globe

terrestre sous 4 angles de vues. (source : NASA)

Motivation et approche

Une meilleure connaissance du climat global passe aujourd’hui par une meilleure compréhension desmécanismes atmosphériques au-dessus des océans et en particulier dans les zones tropicales. En effet, lesprécipitations dans les régions tropicales (-30N, +30N) représentent les deux tiers des précipitations globales.Les tropiques étant couverts à 75% par les océans, seule une étude des précipitations depuis l’espace peutpermettre une estimation globale dans le but d’améliorer les modèles de climat.

Cette surveillance de l’océan mondial doit permettre une meilleure compréhension de notre climat. Eneffet, la connaissance des taux de précipitation à la surface océanique de façon quasi instantanée doit permettred’améliorer considérablement les modèles de circulation générale et les modèles de prévision du temps, parl’assimilation de ces données dans les modèles. Par exemple, des études sont aujourd’hui en cours surl’assimilation de données de précipitations issues du radiomètre TMI dans le modèle météorologique del’European Center for Medium-Range Weather Forescasts (ECMWF). A long terme, ces mesures sont un outilexceptionnel pour les études climatologiques. C’est en effet sous forme de chaleur latente lors de la condensationdes nuages et de la formation et dissipation des précipitations, que les trois quarts de l’absorption de l’énergie parl’atmosphère se produisent.

Ainsi, l’estimation des précipitations au-dessus des océans est d’un enjeu considérable. La grandedifficulté de ces approches de télédétection hyperfréquence réside dans la description des divers mécanismesd’interactions des ondes électromagnétiques avec les composants atmosphériques : la relation directe entre lesprécipitations et les températures de brillance mesurées, appelée équation de transfert radiatif, ne peut êtreinversée analytiquement.

Inversion par réseau de neurone

Dans le cadre de ce stage, nous nous sommes intéressés aux mesures des instruments radiométriquesTMI de la NASA. Cet instrument se distingue par sa couverture spatiale des océans liée à la géométrie de mesureet par ses fréquences qui sont 10, 19, 21, 37 et 85 GHz. D’autres capteurs fournissent des mesures deprécipitation, tel que le radar spatial (PR) à bord de la plate-forme TRMM ; mais seuls les radiomètrespermettent un échantillonnage quasi global.

Canal 1 2 3 4 5 6 7 8 9Fréquence (GHz) 10.65 10.65 19.35 19.35 21.3 37 37 85.5 85.5Polarisation V H V H V V H V HTâche au sol :Grand axe (km) 59.0 60.1 30.5 30.1 27.2 16.0 16.0 6.7 6.9Petit axe (km) 35.7 36.4 18.4 18.2 16.5 9.7 9.7 4.1 4.2

Figure 3 : fréquence, polarisation et résolution au sol des canaux du satellite TRMM.

Les différentes méthodes de restitution des précipitations à partir de données radiométriqueshyperfréquence peuvent être classées en deux grandes catégories : les algorithmes statistiques et les algorithmesitératifs. Les algorithmes statistiques consistent à exprimer le taux de pluie comme une fonction de plusieurstempératures de brillance ou à rechercher par décision bayésienne le taux de pluie le plus probable à partir d’unensemble d’exemples. Les algorithmes itératifs sont basés sur l’utilisation d’un modèle de transfert radiatif et

Page 6: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

6

consistent à ajuster de manière itérative les températures de brillance simulées et mesurées en modifiant lemodèle de nuage ou de précipitation.

Les algorithmes de la deuxième catégorie ont l’avantage d’être transposables à une autre configurationd’observation (autres polarisations, fréquences et incidences) mais présentent deux contraintes majeures. Ilsnécessitent des simplifications importantes de la structure et de la composition de l’atmosphère et sontgourmands en temps de calcul.

Les algorithmes de la première catégorie sont aujourd’hui les plus courants. Il est en effet possible de« capturer » des dépendances relationnelles complexes entre les variables présentes dans les données sansqu’aucune réelle connaissance sur la représentation mathématique sous-jacente ne soit nécessaire. On cherche à

déterminer une fonction mn RRg Æ: paramétrée par pRw Œ telle que :

),( xwgyxrrr

xr

représente les températures de brillance aux différentes fréquences

yr

représente le paramètre atmosphérique que l’on souhaite estimer

Figure 4 : température de brillance à 19 GHz en fonction du taux de pluie.Phénomène de saturation.

Les valeurs de w sont fixées par régression sur un échantillon de N couples { } Niii yx ,1, =

rr. La

méthode retenue est l’inversion par réseau de neurones, car ce principe est notamment développé dans lesmodèles des perceptrons multicouches (MLP) et des réseaux multi-expert (ME). Ce sont des systèmesparamétrés dont les paramètres sont déterminés de manière itérative par régression non-linéaire lors d’une phased’apprentissage. Ces méthodes ont d’ailleurs déjà été appliquées dans le cas de la détermination du vecteur devent à la surface océanique à partir de mesures diffusiométriques (S.THYRIA).

Ceci implique la création d’une base de données pour superviser l’apprentissage du réseau. Elle estfondamentale et les performances de l’algorithme dépendent fortement du choix des exemples. Il existe desmodèles de transfert radiatif qui nous permettent de construire cette base de données : on peut simuler lestempératures de brillance à partir des taux de pluie déterminés par les modèles climatiques du Centre Européenet des conditions de surfaces. Cependant cette approche suppose le taux de pluie uniforme sur plusieurs dizaines

Température normalisée à 19 GHz

Page 7: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

7

de kilomètres carrés, ce qui provoque des erreurs importantes dans les cas inhomogènes. Entre autres, on ne peutpas simuler les situations de forte pluie qui sont souvent convectives et donc très localisées.

Le satellite TRMM résout ce problème (figure 5): il possède à la fois un radiomètre et un radar. On peutdonc associer les températures de brillance au taux de pluie mesuré par le radar que l’on considère comme vrai.La taille des pixel radar étant plus petite que celle des pixels radiométriques, on va dans un premier tempssélectionner tous les pixel radars qui ont leur centre compris dans un même pixel radiométrique, puis on calculeune moyenne du taux de pluie (figure 6, les points rouge sont les mesures radar, l’ellipse bleu représente un pixelradiométrique). Le radar mesure en fait une réflectivité. On obtient le taux de pluie grâce à un algorithme ditstandard. Il y a donc une incertitude sur le taux de pluie que l’on utilise.

Figure 5 : géométrie de mesure des différents capteurs embarqués sur le satellite TRMM. Seul le radiomètrepeut fournir des mesures à l’échelle globale car la largeur de son scan est de 759 km.

Page 8: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

8

Figure 6 : on réalise le moyenne des points radars contenus dans un pixel radiométrique.

Page 9: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

9

LA BASE DE DONNEES

Le taux de pluie utilisé

La taille des pixels radiométriques dépend de la fréquence de travail. Plus la fréquence est haute plus lataille du pixel est petite. Sur quelle surface doit-on alors moyenner les taux de pluie radar ? L’expérience montreque l’on obtient la meilleure corrélation entre le taux de pluie moyen et les températures de brillance avec despixels à 19 GHz, ce qui représente au sol une ellipse de grand axe 30 km et de petit axe 18 km. On choisit donccette surface car elle optimise la possibilité de restituer la pluie à partir des signaux radiométriques.

On impose de plus aux pixels radiométriques retenus de contenir un nombre minimum de mesuresradar, de telle sorte que la moyenne sur les taux de pluie ait un sens. Pour un pixel à 19 GHz, on demande aumoins 20 mesures radar. Cela sélectionne environ 2 000 points utilisables par orbite.

Description des différentes bases de données

L’utilisation de réseaux de neurones implique la construction des trois bases de données distinctessuivantes :

• La base d’apprentissage est un ensemble d’exemple utilisé pour l’apprentissage du réseau de neurone. Ellepermet de fixer les poids des connexions, donc de déterminer la fonction inverse recherchée.

• La base de validation permet de vérifier que le réseau a bien appris. Elle sert aussi comparer lesarchitectures. Elle permet donc de déterminer le nombre de couche cachée, le nombre de neurone par coucheCe sont des paramètres qui influencent la complexité de la fonction inverse.

• La base de test est uniquement utilisée pour s’assurer des performances du réseau en fonctionnementnormal, de sa capacité de généralisation. La base de test ne doit pas servir d’exemple pour l’apprentissage nide critère de choix pour l’architecture.

Construction des bases de données

La base d’apprentissage et la base de validation doivent être construites de la même façon, sinon on nepeut pas vérifier que le réseau a bien appris. La méthode de construction de la base d’apprentissage estfondamentale : le choix des exemples, leur répartition statistique, leur ordre peut affecter considérablement lecomportement final du réseau.

Page 10: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

10

Figure 7 : nombre de mesure en fonction du aux de pluie.l’histogramme a été coupé, on a en fait 18 500 points à 0 mm/h.

Ces deux bases ont été réalisées à partir de dix orbites du satellite TRMM, ce qui correspond à environ22 000 données. La grande majorité des exemples sont des cas où il ne pleut pas (figure 7). On commence doncpar en éliminer pour que le réseau n’apprenne pas que cette situation. Sur 18 500 points de ciel clair, on en garde1 400. Cela correspond tout de même au final à 51% des exemples de la base d’apprentissage. La détection descas où il ne pleut pas est très importante, le réseau focalise ainsi sur le problème.

Pour les taux de pluie supérieurs à 8 mm/h, on conserve toutes les données car ce sont des situationsrares et donc difficiles à apprendre. Pour les taux de pluie non nuls et inférieurs à 8 mm/h, on découpe l’espacede températures de brillance en boite identiques à neuf dimensions. Lorsqu’une boite contient trop de données,on en supprime de telle sorte que le nombre de données pour une boite ne dépasse jamais un certain nombre.

Ainsi les données présentées pour l’apprentissage décrivent tout l’espace d’entrée, ce qui est essentielétant donné que les réseaux de neurones extrapolent mal. On essaie en fait de représenter toutes les situationséquitablement pour que le réseau apprenne tous les cas et donc fonctionne correctement quel que soit le jeu dedonnées présenté en entrée. On voit donc sur l’histogramme ci-dessous (figure 8) un pic à 0 et ensuite unerépartition équilibrée s’affaissant pour les forts taux de pluie en raison du manque de données.

Page 11: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

11

Figure 8 : nombre d’exemple de la base d’apprentissage en fonction du taux de pluie

La dernière étape consiste à ramener les données en entrée du réseau entre 0 et 1 et à les mélangeraléatoirement. On obtient ainsi 2 700 exemples. On utilise des réseaux qui ont entre 50 et 100 poids et il faut auminimum dix fois plus d’exemples que de poids pour que le réseau apprenne correctement. On choisit doncd’affecter les trois quarts des exemples à l’apprentissage et le dernier quart à la validation.

La base de test quant à elle doit tester le réseau en fonctionnement normal. Elle doit donc êtreconstituée de données non travaillées sur lesquelles le réseau n’a ni appris ni été validé. On la construit enrassemblant les données de dix nouvelles orbites.

Page 12: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

12

LES RESAUX DE NEURONES MLP (Multi Layer Perceptron)

Le neurone élémentaire

Source détaillée: http://saturn.epm.ornl.gov/~touzetc/Book/Bouquin.htm

La figure 9 montre la structure d'un neurone artificiel. Chaque neurone artificiel est un processeurélémentaire. Il reçoit des variables d'entrées Ei en provenance de neurones amonts. A chacune de ces entrées estassocié un poids Wi (weight en anglais) représentant l’importance de la connexion. Chacun de ces processeursélémentaires est doté d'une sortie unique qui se ramifie ensuite pour alimenter les neurones avals.

Figure 9!: mise en correspondance neurone biologique / neurone artificiel

On distingue deux phases. La première est habituellement le calcul de la somme pondérée des entrées(A) selon l'expression suivante :

A = S (Wi . Ei)

A partir de cette valeur, une fonction de transfert calcule la valeur de l'état du neurone, c’est à dire de la sortie.C'est cette valeur qui sera transmise aux neurones avals. Il existe de nombreuses formes possibles pour lafonction de transfert. Les plus courantes sont présentées sur la figure 10. L’utilisation des fonctions de transfertnon linéaire permet l’obtention de modèle statistique non linéaire.

Figure 10!: différents types de fonctions de transfert pour le neurone artificiel,a : fonction à seuil (S , la valeur du seuil), b : linéaire par morceaux, c : sigmoïde.

Page 13: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

13

Réseau multicouche

Les neurones sont arrangés par couche (figure 11). Il n'y a pas de connexion entre neurones d'une mêmecouche et les connexions ne se font qu'avec les neurones des couches avales. Chaque neurone d'une couche estconnecté à tous les neurones de la couche suivante et celle-ci seulement. Ceci permet d'introduire la notion desens de parcours de l'information au sein d'un réseau et donc définir les concepts de couche d'entrée et couche desortie. Les couches intermédiaires n'ayant aucun contact avec l'extérieur sont appelées couches cachées.

Figure 11!: définition des couches d'un réseau multicouche.

Apprentissage

L'apprentissage est la propriété la plus intéressante des réseaux neuronaux. C’est une phase dedéveloppement du réseau de neurones durant laquelle le comportement du réseau est modifié jusqu'à l'obtentiondu comportement désiré. L'apprentissage neuronal fait appel à des exemples de comportement. Les poids sontmodifiés du dans l'optique d'accorder la réponse du réseau aux exemples. Il est souvent impossible de décider àpriori des valeurs des poids des connexions d'un réseau pour une application donnée. A l'issu de l'apprentissage,les poids sont fixés : c'est alors la phase d'utilisation.

On utilise un algorithme de rétropropagation du gradient pour que les modifications des poids sepropagent derrière la couche de sortie.

La détermination d’une fonction avec un tel réseau à partir d’un ensemble de données se ramène auproblème classique de la détermination des paramètres du modèle (les poids de connexions) par régression auxmoindres carres. Le but de l’apprentissage est de déterminer un modèle qui va généraliser un processus décrit parun nombre fini N de comportements qui composent l’ensemble d’apprentissage. Plus il y de couches cachées,plus la fonction pourra être non linéaire.

Soit une base d’apprentissage constituée de couples ( x , y ) où x est la valeur d’entrée et y la valeur desortie. On montre qu’au final la sortie du réseau tend vers E(y/x), soit l’espérance mathématique conditionnellede y sachant x.

Page 14: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

14

LE RESEAU MULTI-EXPERT

Propriétés de cette architecture

Ce modèle est appelé modèle neuronal modulaire (MNM), introduit dans la communauté des réseaux deneurones (Jacobs 1991) sous le nom de « mixture of expert ». L’idée de base est de diviser un problèmecomplexe en un certain nombre de sous-problèmes plus simple et plus spécifiques. De plus, puisque l’on neconnaît pas la partition a l’avance, la résolution des sous-problèmes et du partitionnement s’opèrent de manièresimultanée. Dans l’approche que l’on a choisie, on utilise des réseaux du type perceptron multicouches pourémuler a la fois les sous modèles (appelés experts) et le modèle de partitionnement (appelé réseau contrôleur).

Expert 1variance

s12

X

Expert Kvariance

sK

2

X

m1(x) m

K(x)

a1(x)

aK(x)

E(Y/x)

Reseau Controleur

Figure 12 : architecture Multi-Expert

Le réseau contrôleur détermine pour chaque expert la probabilité que la réponse qu’il donne soit bonne.La sortie est la somme pondérée des réponses par leur probabilité d’être juste.

On utilise ce type d’architecture car le problème comporte a priori plusieurs modes : à chaque type desituation physique correspond une fonction d’inversion propre. Pour des températures de brillance similaires, letaux de pluie est différent si la structure pluvieuse est stratiforme homogène ou convective complexe. Le modèlede réseau multi-expert permet de traiter ce type de problèmes où les espaces d’entrée des différents modes serecoupent : chaque expert traite un type de situation physique. Le réseau contrôleur, dit « gating », détermine lasituation physique et oriente vers l’expert correspondant. Un MLP classique restituant E(y/x) ferait une moyenneentre les modes et sa sortie n’aurait aucun sens physique (figure 13).

De plus, même si la valeur restituée par les experts est identique, ces derniers ayant des variancesdifférentes, le multi-expert apporte une information supplémentaire sur l’incertitude du résultat.

Page 15: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

15

Etude du partitionnement

En ce qui concerne la restitution de la pluie, on a un expert qui se positionne clairement sur le ciel clairet les très faibles taux de pluie. La séparation entre les deux autres experts est plus complexe. Il y a plusieurscritères qui rentrent en jeu : le taux de pluie, l’indice convectif/stratiforme et le taux de corrélation entre lesfréquences. La figure 20 montre l’importance de l’indice convectif /stratiforme. Cette figure justifie le fait quel’on utilise une architecture Multi-Expert.

figure 20 : température à 37 GHz en fonction du taux de pluie..

On remarque la corrélation entre l’expert 2 et les points stratiformes, l’expert 3 et les points convectifs.Chaque expert traite une situation physique différente. On observe de plus l’effet du taux de pluie : l’expert 3 sespécialise dans les points convectif à fort taux de pluie et l’expert 2 dans les points à faible taux de pluie oustratiformes.

Valeur enentrée

SortieExpert

1

SortieExpert

2

MLP

Mode 1 Mode 2

Figure 13 : pour une même valeur en entrée, on a une valeur de sortie différenteselon que le réseau contrôleur oriente vers le mode 1 ou le mode 2.

Page 16: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

16

Choix du nombre d’expert

Le nombre d’expert correspond au nombre de sous problèmes. Le choix s’effectue de la manièresuivante : on fixe l’architecture et on fait apprendre le réseau avec un nombre croissant d’expert. Lorsquel’expert supplémentaire n+1 ne sert à rien, c’est à dire lorsque sa probabilité d’avoir raison reste proche du zéro,on arrête et le nombre d’experts à utiliser est n.

La figure 14 représente les valeurs des a en fonction du taux de pluie avec une couleur différente pourchaque expert. C’est en fait la probabilité que l’expert ait raison. Elle est déterminée par le réseau contrôleur. Onvisualise ainsi le domaine de validité des experts. A gauche on a 3 experts, on voit que l’expert en vert sespécialise dans la détection du ciel clair (dans cette zone la probabilité qu’il ait raison est 1), qu’un autres’occupe des taux de pluie moyen (en noir) et que le dernier (en bleu) restitue les forts taux de pluie. A droite ily a quatre experts. Le quatrième en rouge est inutile : la probabilité qu’il ait raison reste faible.

Figure 14 : domaine de validité des experts, c’est à dire gating égal à 1, en fonction du taux de pluie.

Page 17: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

17

Choix du coefficient d’apprentissage

On utilise la même démarche pour déterminer le coefficient d’apprentissage initial. C’est un paramètrecrucial pour l’apprentissage : top fort, le réseau oscille sans atteindre le minimum (figure 15 en haut à gauche),trop faible, le réseau reste confiné dans des minimums secondaires (il oscille et a peu de chance d’apprendreencore, figure en bas à droite).

Figure 15 : évolution de l’erreur absolue en fonction du nombre d’itération pour différents coefficientsd’apprentissage initiaux.

Erreur absolue sur la base d’apprentissage

Erreur absolue sur la base de validation

Page 18: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

18

fonction linéaire ou exponentielle en sortie

La saturation du signal est très limitante. Intuitivement on peut penser qu’une exponentielle en sortie ades chances d’améliorer l’apprentissage. Cette idée simple a été mise en œuvre, mais les performances du réseaun’ont pas été sensiblement modifiées. Cependant, on peut noter un effet de lissage de l’apprentissage qui devientmoins chaotique si l’on observe l’exemple ci-dessous (figure 16). La courbe de gauche montre un apprentissageavec une fonction linéaire en sortie et la courbe de droite avec une fonction exponentielle.

Figure 16 : influence d’une fonction exponentielle en sortie

Architecture MLP des experts et du réseau contrôleur

Le nombre de couches cachées influence la non linéarité de la fonction. On fixe donc le nombre deneurones par couche puis l’on supprime des couches cachées jusqu’à ce que les performances se dégradent. Si lenombre de couches cachées est trop important, la fonction approximée est trop complexe et on s’expose au sur-apprentissage.

Le nombre de neurone correspond pour la première couche cachée au nombre de combinaisons linéairespertinentes des variables d’entrée. Une simple Analyse en Composantes Principales fournit cette information. Lerôle du nombre de neurone des autres couches, même s’il est lié à la complexité de la fonction, reste plus flou.

L’architecture retenue correspond à des experts à 3 couches cachées 7 / 5 / 3 / 1 et à un réseaucontrôleur de 4 couches cachées 9 / 7 / 5 / 3.

Page 19: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

19

Augmentation artificielle du nombre d’exemple

L’ajout d’un bruit gaussien permet de multiplier le nombre d’exemple. Cette méthode à été employéedans le cas des forts taux de pluie, situation pour laquelle les données sont rares. Or ces cas correspondent à dessituations physiques complexes très localisées et de ce fait où le bruit est fort sur les températures de brillance.Les valeurs du taux de pluie sont alors peu corrélées avec le signal radiométrique. Au final l’effet de cetteméthode est néfaste pour l’apprentissage du réseau : il n’arrive plus à trouver une loi de restitution du taux depluie et donc oscille (figure 17).

Figure 17 : évolution de l’apprentissage avec et sans ajout artificiel de données.

Page 20: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

20

initialisation des poids

L’étude du partitionnement non supervisé en sous-problèmes et surtout de la physique du signalradiométrique nous donne une idée a priori des différents modes du problème. On peut donc mettre le réseaucontrôleur sur la voie afin qu’il effectue bien son partitionnement en fonction de critères physiques.

Techniquement, cela consiste à initialiser les poids du réseau de neurone. On extrait de la based’apprentissage les exemples correspondant à une situation physique donnée. On obtient ainsi autant de sous-bases que d’experts nécessaires a priori. On fait apprendre chaque expert séparément uniquement sur lesexemples qui le concernent. On fait apprendre le réseau contrôleur à orienter vers le bon expert puis on réunit lespoids. On peut alors initialiser un réseau complet que l’on fait encore apprendre un peut pour que les blocss’organisent en tenant compte de leur environnement.

Les performances finales sont relativement peu améliorées (figure 18), ce qui montre bien que le réseaumulti-expert est capable de réaliser le partitionnement tout seul. Cette initialisation permet surtout de réduire letemps de calcul puisque que le réseau n’a pas besoin de résoudre le problème complexe du partitionnement.

sans initialisation :

nombre d’itération : 1801err. moy. validation : 1.0071086005321

avec initialisation :

nombre d’itération : 181err. moy. validation : 0.9070933740145

Figure 18 : erreur moyenne absolue en fonction du taux de pluie avec et sans initialisation.

Taux de pluie radar

Erreur moyenne absolue

Page 21: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

21

Statistique de la base d’apprentissage

La méthode de construction de la base d’apprentissage s’est avérée ne pas être la bonne. La réponse duréseau tend vers E(y/x), il tient donc compte de la statistique de la base d’apprentissage, que ce soit pour lesexperts ou pour le partitionnement. La figure ci-dessous montre que pour des données naturelles lesperformances en terme de biais sont améliorée si l’on réalise l’apprentissage avec une base dont la statistique estnaturelle. Il faut construire la base d’apprentissage en fonction de l’utilisation que l’on veut faire de l’algorithme.Intuitivement, on peut penser que l’apprentissage non-supervisée du gating augmente l’influence de la statistiquesur les résultats. Ceci reste à démontrer.

figure 19 : biais moyen en fonction du taux de pluie

Page 22: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

22

Utiliser la topologie

L’amélioration des performances du réseau est difficile. Peut-être que l’information contenue dans les 9températures de brillance est-elle insuffisante. Peut-être faut-il fournir au réseau plus d’informations relatives àla situation physique de la zone concernée. On a donc essayé d’exploiter l’information contenue dans les pixelsadjacents au pixel étudié en rajoutant des variables en entrée du réseau de neurones. On cherche des variables quisoient corrélées avec les zones convectives pour améliorer le partitionnement réalisé par le réseau contrôleur. Onpeut prendre l’écart type du groupe de pixel ou la différence maximale avec le pixel central.

Cette méthode n’a pas permis non plus d’améliorer les performances : il n’a apparemment pas étépossible de dégager des variables pertinentes. Une variable corrélée avec les situations convectives sera en effetaussi corrélée avec les bordures des zones de pluie, ce qui semble empêcher le réseau de l’utiliser. Les variablesétudiées étaient en fait significatives de l’inhomogénéité de la zone autour du pixel central. C’est par exemple lecas pour la différence maximale à 37 GHz (figure 21). On voit que cette variable correspond bien aux zonesconvectives et aux bordures de zones de pluie : elle occulte la large zone de pluie stratiforme centrale mais enconserve les contours.

Figure 21 : zones de pluie, zones convectives, différence maximum de la température à 37 GHz du pixel centralavec les pixels adjacent pour l’orbite 04037.

Page 23: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

23

Comparaison des performances en fonction du taux de pluie

Par rapport au MLP, le Multi-Expert a de meilleur résultat dans les zones où des expertssupplémentaires se sont spécialisée :

• En ce qui concerne la détection du ciel clair, lorsque l’on travaille sur des mesures à échelleglobale, le problème se complique et le réseau Multi-Expert devient plus performant que le MLP(E.Moreau).

• Pour les fortes pluies, la diversité des situations est très importante et l’on possède peu d’exemples.Cela explique que dans cette étude le Multi-Expert n’ait pas beaucoup amélioré les résultats d’unMLP classique. On remarque tout de même que l’expert spécialisé dans les fortes pluies permet deréduire l’effet néfaste de la saturation (cf. la figure du biais moyen entre 10 et 20 mm/h)

Le Multi-Expert apporte en plus une information intéressante sur les situations physiques étudiées et surla précision des valeurs restituées, ce qui peut être utile par exemple si l’on essaie d’intégrer les taux de pluierestitué à des modèles climatiques.

Lorsqu’on apprend avec des données simulées les résultats sont moins bons (courbes rouges). C’estnormal puisqu’on valide sur des données radar. Le réseau qui a appris avec des taux de pluie radars seraforcément meilleur. On voit aussi que le réseau qui a appris sur des données simulées restitue mal les forts tauxde pluie. Ceci est du à la difficulté de simuler ce type de situation.

Figure 22 : erreur absolue, biais et variance sur la base de test en fonction du taux de pluie

Page 24: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

24

Comparaison avec l’algorithme standard

La dispersion est moins importante avec le Multi-Expert. Ce dernier a tendance à saturer alors quel’algorithme standard surestime. Les taux de pluie restitués par le Multi-Expert ne sont jamais très éloignés de lavaleur désirée.

Figure 23 : scatter plot de l’algorithme standard 2A12 et du Multi-Expert

Page 25: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

25

Un exemple de généralisation

figure 24 : taux de pluie en fonction de la latitude et de la longitude pour l’orbite 04037

Page 26: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

26

Erreur d’extrapolation

La figure 27 représente le taux de pluie en couleur dans un espace des températures de brillancesimplifié (37 GHz et 85 GHz). On visualise ainsi la fonction que l’expert « stratiforme » doit approximer et lafonction qu’il réalise. On visualise aussi les zones sur lesquelles on appris et les zones où le biais moyen est fort.La conclusion est simple : les erreurs sont importantes dans les zones de l’espace d’entrée non représentées dansla base d’apprentissage. Le réseau ne peut pas extrapoler. Cela montre que les performances du réseau deneurone peuvent être améliorées par un choix plus large des exemples de la base d’apprentissage.

Figure 25 : taux de pluie en couleur dans l’espace des températures ramené à 2 dimensions.

Page 27: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

27

LA SELECTION DE VARIABLE

La méthode

Source détaillée : « HVS : a Heuristic for Variable Selection in multilayer artificial neural networksclassifier. » Méziane YACOUB & Younès BENNANI

La sélection de variable permet d’améliorer les performances des réseaux de neurone MLP et de mieuxcomprendre l’influence de chaque variable d’entrée sur la sortie. La méthode est simple, elle consiste à faireapprendre le réseau de neurone puis à déterminer, grâce aux poids du réseau, la variable qui participe le moins aurésultat. On supprime cette variable et on continue l’apprentissage, et ainsi de suite. On arrête lorsque l’on atteintle minimum de l’erreur globale. Les variables contenant peu d’information participent à l’apprentissage, elleslaissent donc leur trace. Leur élimination permet au réseau d’apprendre d’autres sous-problème sans êtreperturbé. Cette méthode s’applique successivement à toutes les couches du réseau.

Le critère HVS : a Heuristic for Variable Selection

Soit un réseau à 2 couches, N1 neurones pour la première et N2 neurones pour la seconde. Pour calculerl’importance du neurone i de la couche 1, on commence par calculer sa contribution dans chaque neurone j de lacouche 2 :

Figure 26 : calcul de la contribution du neurone i au neurone j.

On multiplie ensuite cette contribution par l’importance du neurone de la couche 2 correspondant puison fait la somme de ces contributions pondérées :

Importance i = Sj=1,N2 ( Contribution i/j * Importance j)

On initialise l’algorithme en donnant une importance de 1 aux neurones de sortie. L’algorithme calculles importances en se rétropropageant.

Contribution i /j = |wij| / Sk=1,N1 ( |wkj| )

C’est le poids de la connexion i/j diviser par lasomme des poids des connections arrivant sur j

Page 28: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

28

Résultats

Pour des raisons de simplicité, la méthode a été appliquée à un MLP et non au Multi-Expert.

Type de réseau Nb de variables architecture Erreur moyenne

MLP initial 9 11 / 7 / 1 0.84

MLP après la méthodeHVS

4 5 / 2 / 1 0.82

MLP classique avec unearchitecture identique àcelle obtenue par HVS

4 5 / 2 / 1 0.89

Réseau Multi-Expert 9 Multi-expert 0.81

Figure 27 : tableau comparatif des résultats obtenu avec la méthode HVS. A architectures finales identiques, leMLP auquel on a appliqué la méthode HVS est plus performant qu’un MLP classique

On voit que les performances ne sont pas significativement améliorées. Néanmoins, elles ne sont pasdégradées et l’architecture est vraiment simplifiée. Sans utiliser la méthode HVS, il est impossible d’obtenird’aussi bonnes performances avec un réseau ayant la même architecture.

Etude des variables d’entrée

Si la méthode de sélection n’améliore pas les performances, elle peut nous aider à mieux comprendreles variables d’entrée. Dans ce but, on a réalisé la sélection avec deux réseaux : le premier apprend le taux depluie à 19 GHz et le second celui à 37 Ghz.

Fréquences retenues Erreur absolue moyenne relative

à la résolution du 19 GHZ 10H / 19V / 22V / 85V 0.82

à la résolution du 37 GHZ 19V / 37V / 37H / 85V / 85H 1.05

Figure 28 : température de brillance retenues par la méthode HVS

Cela montre bien que la résolution du 19 GHz est la mieux corrélée avec l’information contenues dansles 9 températures de brillance : l’éventail des températures retenues est plus large.

D’autre part, pour le réseau fonctionnant à 19 GHz, la présence du 22 GHz dans les fréquences retenuesest surprenante. Ce signal contient en effet peu d’information sur la pluie, il réagit fortement à la vapeur d’eau.On remarque aussi que le 10 GHz est peu utile pour restituer la pluie à la résolution du 37 GHz alors que cesignal est très sensible à la pluie. Ces deux remarques prouvent qu’il faut considérer la résolution sur un mêmeplan que la sensibilité du signal. On retrouve aussi des résultats obtenus par des méthodes beaucoup plusphysique. L’utilisation des dépolarisations à 37 GHz et 85 GHz pour restituer la pluie à la résolution du 37 GHz.

Page 29: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

29

CONCLUSIONS

L’inversion par réseau de neurone est une technique efficace pour restituer les précipitations à partir dedonnées radiométriques.

En ce qui concerne les méthodes utilisées, on peut dire que le Multi-Expert améliore la détection duzéro et atténue l’effet néfaste de la saturation pour les fortes pluies grâce à ses experts supplémentaires. Leréseau contrôleur sépare correctement les situations physiques. Le Multi-expert est donc un classifieur. Cetaspect est intéressant lorsqu’on essaie d’intégrer les taux de pluie restitués à des modèles climatiques. De plusl’information sur l’incertitude du résultat permet de restituer un résultat avec sa précision. D’autre part, lasélection de variable dégage les variables pertinentes et simplifie l’architecture. Cette méthode est simple etrapide à mettre en œuvre.

La restitution des précipitations est principalement limitée par les problèmes de résolution et du manquede données à l’apprentissage. Les performances des réseaux de neurones peuvent donc encore s’améliorer.

Page 30: RESTITUTION DE LA PLUIE A PARTIR DE …mmsa/pages/documents/...rayonnement émis par les constituants atmosphériques mesuré par les radiomètres (figure 1). 4 Figure 1 : schéma

30

BIBLIOGRAPHIE

[Bishop, 1995] Bishop C. M. (1995). Neural networks for pattern recognition, Oxford University Press

[Geman, 1992] Geman S., Bienenstock E. et Dorsat R. (1992). ‘Neural Networks and bias/variance dilemma’,Neural Comp., 4, 1-58.

[Jacobs, 1991] Jacobs R. A., Jordan M. I., Nowlan S. J. and Hinton G. E. (1991). ‘Adaptive mixtures of localexperts’, Neural Computation, 3, 79-87.

[Jordan, 1994] Jordan M. I., Jacobs R. A. (1994). ‘Hierarchical mixtures of experts and the EM algorithm’,Neural Computation, 6, 181-214.

[Jordan, 1995J ordan M. I. et Xu L. (1995). ‘Convergence results for the EM approach to mixtures of expertsarchitectures’, Neural Networks, 8, 1409-1431.

[Yacoub ] Bennani Y. ‘HVS : a Heuristic for Variable Selection in multilayer artificial neural networksclassifier’ , intelligent engineering systems through artificial neural networks vol.7

[Kummerow, 1988] Kummerow C. and Weiman J.A. (1988). ‘Determining microwave brightness temperaturefrom precipitating horizontally finite and vertically structured clouds’, Journ. Geophys. Res., 93(D4), 3720-3728.

[Kummerow, 1998] Kummerow C., Barnes W., Kozu T., Shiue J.et Simpson J. (1998). 'The Tropical RainfallMeasuring Mission (TRMM) Sensor Package', J. Atmos. Oceanic Technol., 15, 809-817.

[Thiria, 1993] Thiria S., Badran F., Mejia C. and Crepon M. (1993). ‘A neural network approach for modellingnon linear transfert functions : Application for wind retrieval from spaceborne scatterometer data’, J. Geophy.Res., 98 (C12), 22, 827-22,841.

[Ulaby, 1981] Ulaby F. T., Moore R. K. et Fung A. K. (1981). Microwave remote sensing, Vol. 1, fundamentalsand radiometry, Artech House Inc., 456.

REMERCIEMENTS

Je tiens à remercierBruno Mabboux pour la réalisation du programme Multi-Expert,Méziane Yacoub qui m’a reçu pour me présenter la sélection de variable,Nicolas Viltard qui m’a fourni les données du satellite TRMM,Cécile Mallet et Claude Klapisz pour leur encadrement,Emmanuel Moreau pour son aide.