Rapport de Stage Analyse Comportementale durant et après...

30

Transcript of Rapport de Stage Analyse Comportementale durant et après...

Page 1: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Rapport de Stage

Analyse Comportementale durant et

après un séisme

MARLIN Yannis

tuteurs :Martine Colard,Jean-Emile Symphor

le 23 Mai 2010

Page 2: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

REMERCIEMENTS

Ce stage a été intéressant et riche d'enseignements et réalisé dans

une bonne ambiance .

C'est pour cela que j'adresse mes sincères remerciements à :� Madame Martine Collard mon maître de stage qui m'a formé et accom-pagné tout au long de cette expérience professionnelle malgré son travailprenant et aussi pour m'avoir accordé toute sa con�ance. J'exprime en-vers elle toute ma gratitude et ma reconnaissance pour tout ce qu'elle aentrepris a�n que mon stage se déroule dans de bonnes conditions.

� Ainsi qu'à monsieur Jean-emile Symphor qui malgré la distance a pu m'ap-porter son aide.

1

Page 3: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Table des matières

1 Introduction 4

2 Le laboratoire L.A.M.I.A 52.1 Presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Le stage 63.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2 Environnemnt de travail . . . . . . . . . . . . . . . . . . . . . 6

3.2.1 Lieu de travail , Ressources logicielles . . . . . . . . . . . 63.2.2 Presentation de weka . . . . . . . . . . . . . . . . . . . . . 63.2.3 Ressources humaines . . . . . . . . . . . . . . . . . . . . . 7

3.3 Tâches e�ectuées . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.3.1 Traitement des données . . . . . . . . . . . . . . . . . . . 73.3.2 Recherches de motifs . . . . . . . . . . . . . . . . . . . . . 8

3.3.2.1 Le clustering . . . . . . . . . . . . . . . . . . . . 83.3.2.2 Règles d'association . . . . . . . . . . . . . . . . 83.3.2.3 Arbres de décision . . . . . . . . . . . . . . . . . 9

3.4 Di�cultés rencontrées . . . . . . . . . . . . . . . . . . . . . . 10

4 Bilan 114.1 Bilan technique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.2 Bilan personnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5 Conclusion 12

6 Annexe 136.1 Rappels des algorithmes utilisés . . . . . . . . . . . . . . . . . . . 13

6.1.1 algorithme K-means . . . . . . . . . . . . . . . . . . . . . 136.1.2 algorithme j48 . . . . . . . . . . . . . . . . . . . . . . . . 146.1.3 algorithme Apriori . . . . . . . . . . . . . . . . . . . . . . 14

6.2 Description des données sources . . . . . . . . . . . . . . . . . . . 146.2.1 séismes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.2.2 témoignages . . . . . . . . . . . . . . . . . . . . . . . . . . 14

6.3 Jeux de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.4 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2

Page 4: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

6.4.1 Perception et témoignage du tremblement de terre par despersonnes jeux 1 . . . . . . . . . . . . . . . . . . . . . . . 20

6.4.2 Jeu 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.4.2.1 jeu 3 . . . . . . . . . . . . . . . . . . . . . . . . 24

6.4.3 Ressenti de la secousse selon l'endroit (Maison ou Immeuble) 256.5 Règles d'association . . . . . . . . . . . . . . . . . . . . . . . . . 276.6 Arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3

Page 5: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 1

Introduction

Etudiant en 1ere année de MASTER mention Informatique à l'Uni-versité des Antilles Guyane, sur le pôle Guadeloupe de Fouillole,j'avais l'opportunité d'e�ectuer un stage de 2 mois au sein d'un(e)entreprise/organisme.

Grâce à cela, j'ai donc eu la chance d'intégrer, pour une durée de 2mois, à savoir du 29 Mars au 22 Mai 2010, le laboratoire LAMIA del'UAG.

Ce stage a consisté principalement en un travail de fouille de don-née avec le logiciel dédié �WEKA�, a�n d'être en mesure d'établircertaines règles.

A�n que ce rapport soit une �dèle retranscription des 2 mois de stagepassés au sein de l'université, je débuterai par une description concisedu laboratoire ainsi que de son domaine d'activité.

Je poursuivrai ensuite par le stage à proprement parlé, c'est-à-dire lesmissions con�ées, les moyens mis en ouvre pour les accomplir, ainsique les résultats obtenus.

Je dresserai par la suite un bilan général, tant bien sur le plan tech-nique que sur le plan personnel, et en�n je tirerais les conclusions deces 2 mois de stage.

4

Page 6: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 2

Le laboratoire L.A.M.I.A

2.1 Presentation

Le laboratoire de Mathématiques Informatique et Applications (LA-MIA) de l'Université des Antilles et de la Guyane (UAG) est uneunité d'accueil (EA) reconnue par le Ministère de l'enseignement su-périeur et de a recherche. Il est la conséquence du regroupementde membres issus des laboratoires AOC-EA 3591 et GRIMAAG-EA3590 de l'UAG. Le laboratoire est dirigé par un directeur et deuxdirecteurs adjoints et est doté d'un conseil de laboratoire.

Le LAMIA compte une cinquantaine de membres répartis au sein dequatre équipes internes chacune dotée d'un responsable en charge del'animation et de la coordination scienti�ques :

� Equipe � Analyse � (analyse variationnelle, analyse numérique, EDP, ana-lyse statistique) ;

� Equipe � Géométrie, mathématiques discrètes et cryptographie � ;� Equipe � Ingénierie des données et connaissances � ;� Equipe � Méthodes et outils d'analyse intelligents distribués �.

Localement, la vie scienti�que du laboratoire s'organise autour deséquipes internes et du séminaire bimensuel du LAMIA ; de manièreplus globale les échanges avec les chercheurs extérieurs ou étran-gers sont constants et les collaborations internationales (Autriche,Canada, Chili, Cuba, Espagne, Etats-Unis, Israël, etc.) constituentun aspect fondamental de la dynamique de recherche de l'unité

5

Page 7: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 3

Le stage

3.1 Objectif

La mission qui m'a été con�é consistait à extraire di�erents jeux dedonnées d'un �chier recensant les témoignages de victimes de séismeset ainsi appliquer à l'aide du logiciel �Weka � des algorithmes de datamining permettant d'extraire des modèles.

3.2 Environnemnt de travail

3.2.1 Lieu de travail , Ressources logicielles

Mon stage s'est déroulé à l'université, plus précisément en salle info4. Durant ce stage je travaillais sur mon propre pc. J'ai donc duinstaller des logiciels adéquates me permettant d'analyser les données.Ces logiciels sont WEKA et Rapidminer.

3.2.2 Presentation de weka

Le logiciel Weka est l'interface d'une librairie Java pour la fouille dedonnée. Une bonne part des algorithmes de fouille de donnée sont dis-ponibles au travers de cette interface. WEKA est un logiciel libre dé-dié au Data Mining. Parmi les fonctionnalités qu'il couvre, on trouveles arbres de décision. Selon dé�nition, un arbre de décision est unoutil d'aide à la décision et à l'exploration de données. Il permet demodéliser simplement, graphiquement et rapidement un phénomènemesuré plus ou moins complexe. Sa lisibilité, sa rapidité d'exécutionet le peu d'hypothèses nécessaires à priori expliquent sa popularitéactuelle.L'interface graphique de Weka propose quatre traitements séparésdes données :

6

Page 8: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

� � Simple CLI � : interface en ligne de commande. Pratiquement équivalentà écrire un logiciel en Java.

� � Explorer � : Visualisation, traitement des données.� � Expérimenter � : Application de méthodes de fouilles de données mul-tiples sur des bases de données multiples.

� � Knowledge Flow � : Constructions graphiques de procédures de traite-ment de données. Equivalent à Pipeline Pilot.

3.2.3 Ressources humaines

Concernant l'encadrement humain, j'ai fonctionné de manière auto-nome, libre de prendre certaines décisions et donc d'agir en consé-quence par rapport au stage. Pour autant, j'ai béné�cié d'un enca-drement permanent tout au long de mon stage, mes tuteurs se tenantà ma disposition a�n d'assurer le bon déroulement du projet, commeen attestent les nombreuses mises au point e�ectuées grâce au rap-port que j'envoyais régulièrement. C'est donc dans un cadre serein,bien entouré et assisté, tout en jouissant d'une certaine liberté quej'ai pu travailler sur le projet qui m'avait été con�é.

3.3 Tâches e�ectuées

3.3.1 Traitement des données

A�n de débuter mon stage il m'a été envoyé un �chier Excel. Ce do-cument regroupait sur di�érentes feuilles le recensement des séismesde 2004 à nos jours, une feuille comportant les divers témoignagesdes victimes des séismes ainsi qu'une feuille décrivant les champs dé-crivant des témoignage de ressentis pendant et après un séisme.

Une première étape a été de sauvegarder les feuilles � séisme � et �témoignage � dans des �chiers séparés.Une fois avoir e�acé les champs non utilisables (date, heure), il a fallules exporter vers un format supportés par les logiciels d'analyse desdonnées .A�n que les �chiers obtenus soit compatibles avec le logiciel WEKA ila fallu passer par une phase de formatage des données en e�açant leschamps dont il manque un trop grand nombre de valeurs ou tel quela répartition des données ne soit pas signi�cative (exemple pour 100valeurs 90 oui et 10 non). Les champs restant permettront de réaliserune étude statistique.Apres avoir e�ectué cette tache il m'a fallu ré�échir, me poser desquestions a�n d'extraire des jeux de données dans le but d'extrairecertain modèles.Les jeux que j'ai extraits du jeu initial sont au nombre de quatre :

7

Page 9: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

1. Le premier représente les e�ets du séisme observés sur les objets à l'inté-rieur des habitations en fonctions de l'intensité (jeu 1)

2. Le second represente le bruit entendus à l'arrivée du séisme avec l'intensitéEms de celui ci (jeu 2)

3. Le troisième represente les dégâts du séisme sur les habitations avec typede construction (jeu 3)

4. Le quatrième représente l'impact du séisme sur les victimes avec leur typed'habitation a�n de connaitre leur ressenti et leur réaction par rapport àl'intensité du séisme enregistré (Jeu 4).

3.3.2 Recherches de motifs

Cette ré�exion m'a permis d'extraire un jeu de données qui leur estpropre. Les jeux résultant de ces questions sont enregistrés dans unformat ar�. Sur les jeux de données obtenus les principales fonction-nalités que j'ai utilisé sont :

� Le clustering� Détermination des règles d'association� Les arbres de décisions

3.3.2.1 Le clustering

Le principal algorithme utilisé est l'algorithme du K-moyennes.Lesclusters sont des groupes de points dont les attributs sont semblables.Ils sont exclusifs. De même, ils peuvent être probabilistes, ou bienhiérarchiques. L'algorithme de base pour le calcul de clusters est l'al-gorithme de �kmeans�. En entrée, on suppose donné avec le jeu dedonnées le nombre k de clusters en sortie. Ensuite, k points sont prisaux hasard pour former les k centres des clusters provisoires. Chaquepoint du jeu de données est assigné au cluster dont le centre est leplus proche de lui, puis de nouveaux centres sont a�ectés, et l'opéra-tion se répète.Il a fallu que je fasse varier les parametres c'est a dire le nombre declusters a�n de trouver des résultats plus signi�catifs.C'est pour cela qu'après une recherche conciencieuse j'ai obtenu (voircluster et interpretation en annexe) :

� Pour le jeu 1 :4 clusters� Pour le jeu 2 : 3 clusters� Pour le jeu 3 : 6 clusters� Pour le jeu 4 : 6 clusters

3.3.2.2 Règles d'association

Une règle d'association ne met en jeu que des relations entre variablesqui se sont produites sur un nombre su�sant d'individus pour êtregénéralisées. Elle est accompagnée d'un indice de con�ance lié à ce

8

Page 10: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

nombre d'individus "liés" par rapport au nombre total d'individusdisponibles. Elles s'écrivent comme une déduction, avec une prémisseA et une conclusion B : A �> B.A�n de déterminer les règles d'associations de mes di�érents jeux dedonnées j'ai utilisé l'algorithme Apriori en faisant varié la con�anceen la gardant tout de meme superieur ou egal à 70% et en assurantqu'il n'y ait pas de règles redondantes.Nous aurons par exemple pour le jeu 1 avec une con�ance de 0.9 :

� si il n'y a pas d'oscillation d'objet suspendu,ni de vibration de petit ob-jet,ni de craquement de poutres alors les petits objets instables et mal�xés ne se deplacent pas

� si il n'y a pas de tremblement léger ni de vibration de poutres et fenètresalors les petits objets instables et mal �xés ne se deplacent pas

� voir annexe pour les di�erentes regles

3.3.2.3 Arbres de décision

Un arbre de décision est une structure qui permet de déduire un ré-sultat à partir de décision, pour parcourir un arbre de décision ettrouver une solution il faut partir de la racine.Chaque n÷ud est ou bien une feuille dénotant une décision ou bienune branche spéci�ant un test sur une valeur d'un attribut. Le nombrede descendants de chaque n÷ud dépend des résultats du test e�ectuéà ce niveau. Généralement un n÷ud pose une question sur un attributde la base de données, la valeur de cet attribut permet de savoir surquel �ls descendre. Pour les attributs énumérés il est parfois possibled'avoir un �ls par valeur, on peut aussi décider que plusieurs valeursdi�érentes mènent au même sous arbre.Plus l'arbre est simple, et plus il semble techniquement rapide à uti-liser. En fait, il est plus intéressant d'obtenir un arbre qui est adaptéaux probabilités des variables à tester.

Pour établir ces arbres l'algorithme que j'ai utilisé est celui du J48.Cettealgorithme est la mise en oeuvre de l'algorithme C4.5 de Quinlan.exemple de graphe de decision obtenu a l'aide du jeu 1 :02O = MOYEN : MOYEN (435.56/191.8)02O = FORT| 04O = FAIBLE : MOYEN (32.23/18.84)| 04O = MOYEN : MOYEN (124.93/49.77)| 04O = FORT : FORT (245.6/56.15) |04O = NON : NON (15.55/7.75)| 04O = SR : FORT (0.0)02O = FAIBLE : FAIBLE (373.5/150.63)02O = NON : NON (430.97/167.26)02O = SR : SR (12.64/4.64)

9

Page 11: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

interpretation du graphe :020 :oscillation des petits objets et 040 : vibration ds portesLa racine de l'arbre est 020.je dispose de 5 categories principales a�nde le de�nir :moyen,fort,faible,non,sr).pour toutes ces categories rien ne se produit sauf pour le cas ou onse situe sur a branche forte.Si il y'a une forte oscillation des petits objets nous arrivons sur lafeuille 040 ki l se subdivise en 5 partiespuis s'arrete.

une interpretation serai de dire que les vibration des portes n'estressenti que lorsque les petits objets oscillent fortement.pour les autre arbre décision voir annexe.

3.4 Di�cultés rencontrées

� L'intégration des jeux initiaux à weka malgré la compatibilité.En e�et les�chiers créés par Excel contiennent des espaces dans un champs donné,des virgules et a pour séparateurs des � ;� alors que weka lui ne supportepas les espaces entre les mots.Il a donc fallut remplacer ces espaces par des�_� donc les recherchés dans un �chier contenant au moins 2000 lignes.Et en�n remplacé les �,� des �chiers excel par des �.� a�n qu'en choisissantle séparateur de weka il n'y ai pas de champ manquant.

10

Page 12: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 4

Bilan

4.1 Bilan technique

Le résultat de mon stage, en�n du projet , est à mon sens plutôtbon.En e�et vu qu'en data mining on sait d'où on part mais pasoù l'on va arriver, j'ai réussi, à partir des éléments fournis à révélercertains comportements fréquents lors et après un séisme.

4.2 Bilan personnel

N'ayant pour ainsi dire jamais travaillé dans le domaine dans lequelj'e�ectue mes études, hormis mon stage de 3me année de LICENCE,ce stage de 2 mois m'aura permis d'acquérir un peu plus d'expérienceprofessionnelle dans mon domaine d'étude, l'informatique.

J'ai pris énormément de plaisir à e�ectuer le travail de recherchequi m'avait été con�é, et je crois qu'aujourd'hui, dans une certainemesure et sous certaines conditions,mon regard sous ce domaine del'informatique a changé.

11

Page 13: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 5

Conclusion

Ce stage fut une expérience béné�que, et ce tant humainement queprofessionnellement. J'ai eu la chance d'être a�ecté à un projet fortintéressant.

Il faut ajouter que j'ai opéré en immersion dans un milieu dont jene connaissais que peu de choses, et j'ai donc du faire appel à mescapacités d'apprentissage ainsi qu'aux enseignements que j'ai reçut ;mais au �nal j'y ai énormément appris, et c'est grandi que je sors decette expérience.

Je pense donc que pour toutes ces raisons, mon stage e�ectué enlaboratoire se révélera être à n'en pas douter, un élément d'une im-portance plus que conséquente, aussi bien dans la poursuite éventuellede mes études que dans ma future réussite professionnelle.

12

Page 14: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Chapitre 6

Annexe

6.1 Rappels des algorithmes utilisés

6.1.1 algorithme K-means

13

Page 15: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

6.1.2 algorithme j48

6.1.3 algorithme Apriori

Cette algorithme consiste à :� générer un ensemble d'item� Calcul des fréquences des ensembles d'items� On garde les ensembles d'items avec un support minimum : les ensemblesd'items fréquents

� On ne génère et on ne garde que les règles avec une con�dence minimum

6.2 Description des données sources

6.2.1 séismes

1. Ref : contient 98 valeurs et n'a aucune valeur manquante. Ce champ peut-être vu comme la clé primaire de la table séisme.

2. événement : représente la date du séisme contient 97 valeurs et 1 valeurunique se qui implique qu'il manque une valeur. Nous pouvons constaterque le plus grand nombre de séisme a été enregistré en 2008 avec 51 puis2007 avec 21 séismes enregistrés au total. Le nombre de séismes enregistrépour les autres années est inferieur à 10.

3. localisation : représente l'ile a�ectée par le séisme et contient 96 valeursenregistrées dont 2 manquantes et 3 valeurs uniques ainsi que 8 valeursdistincts. Les Antilles françaises sont plus représentées 53 et 19 séismes. EnPolynésie française la Nouvelle Calédonie est la région la plus représentéeavec 17 séismes. Nous avons aussi regroupé les champs par ile vu qu'àl' origine les séismes étaient recensés dans une ville ou une partie d'undépartement. Se champ est redondant avec codedept donc il n'est pasnécessaire de le garder.

6.2.2 témoignages

1. Ref_contact : nombre de valeurs : 2044 dont aucunes manquantes et 2044uniques et distincts. Se champ représente la clé primaire de la table séisme

14

Page 16: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

2. RefGeneration : nombre de valeurs : 2044 dont aucunes manquantes ,1distinct et 0 unique.on constate que se champ n'a qu'une seul valeur 9donc nous pouvons l'ignorer

3. Id_GeoFla : nombre de valeurs : 2044 dont aucunes manquantes et 110distincts et 23 uniques. On constate que la commune la plus représentéeavec 285 a pour id IGN 90047 ;vient ensuite la commune ayant pour iden-tité IGN 90051.Nous pouvons aussi constater que pour un grand nombrede commune il y a peu de témoignage.

4. Code_postal : nombre de valeurs : 2044 dont aucun manquant, 99 dis-tincts et 21 uniques .On ne remarque qu'un fort taux de témoignages estenregistré au 972 puis vient le 971.

5. Int_ImagetteEMS98 : nombre de valeurs : 1897 dont 147 manquantes(17%),8 distincts et 0 unique

6. Intensite_EMS98 : nombre de valeurs : 273 dont 1771 manquantes (87%),10distincts et 0 unique. Ce champ peut être supprimé à cause du grandnombre de valeurs manquantes

7. IntCon�ance : nombre de valeurs : 2044 dont aucunes manquantes et 2distincts et aucune unique. Ce champ peut être supprimé a cause de larépartition des di�érentes valeurs dans les champs (2000 contre 44)

8. Ref_evenement : nombre de valeurs : 2044 dont aucunes manquantes,40 distincts et 4 uniques. Permettra de faire une jointure avec la tableséisme. Deux évènements ont plus de 500 témoignages (196 et 342).Deuxautres évènements ont plus de 100 témoignages (341 et 277).le reste desévènements a moins de 100 témoignages pour certains et d'autre moins de5.

9. localisation : nombre de valeurs : 2042 dont 2 manquantes,20 distincts et 1unique. On constate que les résultats obtenus véri�ent ceux obtenus avecl'attribut code-postal à savoir que le plus grand nombre de témoignagesse trouve en Martinique puis viens la Guadeloupe

10. CodeDept : nombre de valeurs : 2044 dont aucunes manquantes, 6 distinctset 0 unique. Identique à localisation

11. 01P : nombre de valeurs : 2044 dont aucunes manquantes, 2 distincts.Ce champ représente un booléen a�n de savoir si une personne a ressentipersonnellement le séisme et peut être supprimé a cause de la répartitiondes di�érentes valeurs dans les champs (1993 oui contre 51 non)

12. 04P : nombre de valeurs : 1990 dont 54 manquantes (3%), 2 distincts. Cechamp représente une question posée a�n de savoir si la secousse a étéressentie a l'intérieur ou l'extérieur et peut être supprimé à cause de larépartition des di�érentes valeurs dans les champs (1911contre 79)

13. 05P : nombre de valeurs : 1897 dont 147 manquantes (7%), 9 distincts et2 uniques. Ce champ représente une question posée a�n de savoir ou cesituait le témoin dans le bâtiment lors de la secousse. .La secousse a étéplus ressenti au RDC (939) au 1er 2eme (738) au 3eme 4eme (163) et peuau sous sol.

15

Page 17: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

14. 06P : nombre de valeurs : 1971 dont 73 manquantes (4%), 8 distincts. .LAmajorité des gens sont assis lors d'un séisme (904) il y'en a 456 debout.ily'a une minorité qui est au repos (286).

15. 07P : nombre de valeurs : 1958 dont 86 manquantes (4%), 3 distincts. Lamajorité des gens qui ont témoigné vivent dans une maison (1107contre848 dans un appart)

16. 08P : nombre de valeurs : 2034 dont 10 manquantes (0%), 12 distincts .Lamajorité des gens vive au 1er étage (678) et au rez-de-chaussée (555) etplus nous gravissons les étages moins y'a de personnes.

17. 09P : nombre de valeurs : 1576 dont 468 manquantes (23%), 5 distincts.lasecousse a été ressentie comme un balancement fort dans la plus grandeparti des témoignages (568).le nombre de témoignage décroit pour un enfonction du ressenti.

18. 10P : nombre de valeurs : 1743 dont 301 manquantes (15%), 5 distincts..La secousse a été ressentie comme une vibration forte dans la plupart destémoignages (708). Le nombre de témoignage décroit pour un en fonctiondu ressenti

19. 11P : nombre de valeurs : 1238 dont 806 manquantes (39%), 3distincts.Ce champ permet de savoir si le témoin a été réveillé séisme et peut êtresupprimé a cause de la répartition des di�érentes valeurs dans les champs.

20. 12P : nombre de valeurs : 1933 dont 111 manquantes (5%), 3 distincts. Cechamp permet de savoir si le témoin est sorti en courant du bâtiment etpeut être supprimé à cause de la répartition des di�érentes valeurs dansles champs

21. 13P : nombre de valeurs : 1877 dont 167 manquantes (8%), 3 distincts.Ce champ permet de savoir si le témoin a perdu l'équilibre et peut êtresupprimé a cause de la répartition des di�érentes valeurs dans les champs

22. 14P : nombre de valeurs : 1895 dont 149 manquantes (7%), 6 distincts et1 unique.la plupart des gens qui ont ressenti la secousse ont été inquiets(907) ou e�rayé (480). Peu on paniqué(180).

23. 15P : nombre de valeurs : 1802 dont 242 manquantes (12%), 55 distinctset 15 uniques. Se champ montre le nombre de temps que le séisme a étéressenti. On constate qu'une grande partie des témoignages révèlent qu'ilest ressenti qu'un court instant

24. 01O : nombre de valeurs : 1442 dont 602 manquantes (29%) et 5 distincts.La majorité des objets suspendus n'ont pas oscillé(407).Plus l'oscillationest ressenti plus le nombre de témoignage diminue.

25. 02O : nombre de valeurs : 1540 dont 504 manquantes (25%) et 5 distincts.La majorité des petits objets ont oscillé moyennement(414). Les donnéessont bien repartie entrent les divers champs (il n'y a pas de grand écartentre faible et fort)

26. 03O : nombre de valeurs : 1671 dont 373 manquantes (18%) et 5 distincts.Le tremblement du mobilier a plus été ressenti moyennement(503). Les

16

Page 18: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

données sont bien repartie entrent les divers champs (il n'y a pas de grandécart entre faible et fort)

27. 04O : nombre de valeurs : 1636 dont 408 manquantes (20%) et 5 distincts.les portes on vibrer moyennement pour la plupart des témoignages. Lesdonnées sont bien repartie entrent les divers champs (il n'y a pas de grandécart entre faible et fort)

28. 05O : nombre de valeurs : 1519 dont 525 manquantes (26%) et 5 dis-tincts.les poutres n'ont pas craqué pour la plupart des témoignages (733).Plus le craquement est ressenti plus le nombre de témoignage diminue.

29. 06O : nombre de valeurs : 864 dont 1180 manquantes (58%) et 3 distincts.Ce champ permet de savoir si les liquides dans les récipients ont oscillés ounon et peut être supprimé a cause du grand nombre de valeurs manquantes

30. 07O : nombre de valeurs : 888 dont 1156 manquantes (57%) et 3 dis-tincts. Ce champ permet de savoir si les liquides dans les récipients pleinsont débordé et peut être supprimé à cause du grand nombre de valeursmanquantes.

31. 08O : nombre de valeurs : 1293 dont 751 manquantes (37%) et 3 distincts.Ce champ permet de savoir si les portes les fenêtres se sont ouvertes lorsdu séisme et peut être supprimé à cause de la répartition des di�érentesvaleurs dans les champs

32. 09O : nombre de valeurs : 1459 dont 585 manquantes (29%) et 3 distincts.Ce champ permet de savoir si il y a eu bris d'objets ou non et peut êtresupprimé à cause de la répartition des di�érentes valeurs dans les champs

33. 10O : nombre de valeurs : 1542 dont 502 manquantes (25%) et 4 distincts.La majorité des témoignages révèlent que la majorité des petits objetsinstables et non �xé n'ont pas chuté et ne se sont pas déplacés (921 contre386 chutes et 212 déplacements)

34. 11O : nombre de valeurs : 1458 dont 586 manquantes (29%) et 4 distincts.Ce champ permet de savoir si le mobilier léger c'est déplacé, chuté ou rienet peut être supprimé à cause de la répartition des di�érentes valeurs dansles champs

35. 12O : nombre de valeurs : 1396 dont 648 manquantes (32%) et 4 distincts.Ce champ permet de savoir si le mobilier lourd c'est déplacé, chuté ou rienpeut être supprimé a cause de la répartition des di�érentes valeurs dansles champs

36. 01E : nombre de valeurs : 1482 dont 562 manquantes (27%) et 3 distincts.Les témoignages révèlent que la majorité on entendu un grondement loin-tain (1016 contre 455).

37. 02E : nombre de valeurs : 1166 dont 878 manquantes (43%) et 3 distincts.Ce champ permet de savoir si le temoin a entendu un coup de tonnerre etpeut être supprimé à cause de la répartition des di�érentes valeurs dansles champs

17

Page 19: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

38. 03E : nombre de valeurs : 1088dont 956 manquantes (47%) et 3 distincts.Ce champ permet de savoir si le temoin a entendu une explosion et peutêtre supprimé à cause de la répartition des di�érentes valeurs dans leschamps

39. 01C : nombre de valeurs : 1502 dont 542 manquantes (27%) et 5 distincts.Nous voyons que les maisons sont construites entre 1946 et 1997 pour lamajorité (917) et après 1997 (513).Y'en a tres peu avant 1945 (42).

40. 02C : nombre de valeurs : 1688 dont 356 manquantes (17%) et 10 dis-tincts.Nous constatons qu'il y'a un grand nombre de construction de bétonarmé (571) puis maçonnerie parpaing (460)

41. 03C : nombre de valeurs : 1388 dont 656 manquantes (32%) et 5 dis-tincts.les témoignages révèlent que la majorité des gens non pas de �ssureschez eux après un séisme (872) puis viens ceux qui on peu de �ssure (295).

42. 04C : nombre de valeurs : 1370 dont 674 manquantes (33%) et 5 distincts.Ce champ permet de savoir si temoin a constaté beaucoup de �ssureslarges et profondes dans les murs et si elles étaient nombreuses, généralisésou autres et peut être supprimé a cause de la répartition des di�érentesvaleurs dans les champs

43. 05C : nombre de valeurs : 1412 dont 632 manquantes (31%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté la chute de petitsmorceaux de plâtre ou d'un élément haut mal scellé et si elles étaientnombreuses, généralisés et peut être supprimé à cause de la répartitiondes di�érentes valeurs dans les champs.

44. 06C : nombre de valeurs : 1380 dont 668 manquantes (33%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté la chute de gros mor-ceaux de plâtre ou de revêtement et si elles étaient nombreuses, généraliséset peut être supprimé à cause de la répartition des di�érentes valeurs dansles champs

45. 07C : nombre de valeurs : 1373 dont 671 manquantes (33%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté l'écroulement de mor-ceaux de cloison, murs, pignons et si elles étaient nombreuses, généraliséset peut être supprimé a cause de la répartition des di�érentes valeurs dansles champs

46. 08C : nombre de valeurs : 1345 dont 699 manquantes (34%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté des �ssures aux joints depoutre, poteaux, angles de murs et si elles étaient nombreuses, généraliséset peut être supprimé à cause de la répartition des di�érentes valeurs dansles champs.

47. 09C : nombre de valeurs : 1347 dont 697 manquantes (34%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté la chute de mortier auxjoints de murs ou dalles armées et si elles étaient nombreuses, généraliséset peut être supprimé à cause de la répartition des di�érentes valeurs dansles champs

18

Page 20: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

48. 10C : nombre de valeurs : 1362 dont 682 manquantes (33%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté un e�ondrement partielde planchés et si elles étaient nombreuses, généralisés et peut être suppriméà cause de la répartition des di�érentes valeurs dans les champs

49. 11C : nombre de valeurs : 1359 dont 685 manquantes (34%) et 5 distincts.Ce champ permet de savoir si le temoin a constaté un e�ondrement depoteaux ou d'un étage et si elles étaient nombreuses, généralisés et peutêtre supprimé à cause de la répartition des di�érentes valeurs dans leschamps

50. 13C : nombre de valeurs : 1433 dont 605 manquantes (30%) et 4 distincts.Ce champ permet de savoir si le temoin a constaté un e�ondrement partielde la toiture et peut être supprimé à cause de la répartition des di�érentesvaleurs dans les champs

51. 14C : nombre de valeurs : 1436 dont 608 manquantes (30%) et 3 distincts.Ce champ permet de savoir si le temoin a constaté un e�ondrement totalde la toiture et peut être supprimé à cause de la répartition des di�érentesvaleurs dans les champs

52. 16C : nombre de valeurs : 1530 dont 514 manquantes (25%) et 3 distincts.Ce champ permet de savoir si la maison a été construite par un profession-nel ou non et peut être supprimé à cause de la répartition des di�érentesvaleurs dans les champs

53. 17C : nombre de valeurs : 1725 dont 319 manquantes (16%), et 2 distincts.Nous voyons que la majorité des personnes ayant témoignées habite surun terrain plat et non en pente (1132 contre 593)

54. 19C : nombre de valeurs : 1563 dont 481 manquantes (41%) et 2 distincts.Ce champ permet de savoir si l'habitation a été construite sur pilotis ounon et peut être supprimé à cause de la répartition des di�érentes valeursdans les champs

55. 20C : nombre de valeurs : 1216 dont 828 manquantes (41%) et 5 distincts.Le sondage montre que la majorité des gens non pas d'installation para-sismique (771 non contre445 oui)

6.3 Jeux de données

Le jeu 1 sera constitué des attributs :� - Int_ImagetteEMS98� -010� -020� -030� -040� -050� -100

19

Page 21: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Le jeu 2 sera constitué des attributs :� - Int_ImagetteEMS98� -010� -020� -030� -040� -050� -100� 01E

Le jeu 3 sera constitué des attributs :� - Int_ImagetteEMS98� -02C� -03C

Le jeu 4 sera constitué des attributs :� - Int_ImagetteEMS98� -05p� -07P� -09P� -02C� -10P� -14P

6.4 clusters

6.4.1 Perception et témoignage du tremblement de terrepar des personnes jeux 1

Nombre d'itérations : 3Somme de cluster d'erreurs élevée au carré : 3176

20

Page 22: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Clustered Instances 0 16 ( 8%)1 251 ( 12%)2 584 ( 29%)3 1043 ( 51%)

interpretation du clustering

21

Page 23: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

6.4.2 Jeu 2

Nombre d'itérations : 2

K=3

22

Page 24: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Clustered Instances0 433 ( 21%)1 532 ( 26%)2 1079 ( 53%)

Interpretation du clustering

23

Page 25: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

6.4.2.1 jeu 3

Nombre d'itérations : 3Somme de cluster d'erreurs élevée au carré : 474

24

Page 26: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Clustered Instances0 253 ( 12%)1 667 ( 33%)2 208 ( 10%)3 719 ( 35%)4 153 ( 7%)5 44 (2%)

interpretation des résultats

6.4.3 Ressenti de la secousse selon l'endroit (Maison ouImmeuble)

Nombre d'itérations : 3Somme de cluster d'erreurs élevée au carré : 2859

25

Page 27: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Clustered Instances0 850 ( 42%)1 416 ( 20%)2 184 ( 9%)3 251 ( 12%)4 260 ( 13%)5 83 ( 4%)

interprétation des résultats

26

Page 28: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

6.5 Règles d'association

Pour le jeu 1 avec une con�ance de 0.9 on a :

1. IF 01O=NON AND 02O=NON AND 05O=NON THEN 10O=NON

2. IF 03O=NON AND 04O=NON THEN 10O=NON

3. IF 03O=NON AND 04O=NON AND 05O=NON THEN 10O=NON

4. IF 01O=NON AND 04O=NON THEN 10O=NON

5. IF 02O=NON AND 04O=NON THEN 10O=NON

6. IF 03O=NON AND 05O=NON THEN 10O=NON

7. IF 02O=NON AND 04O=NON AND 05O=NON THEN 10O=NON

8. IF 01O=NON AND 04O=NON THEN 05O=NON

9. IF 01O=NON AND 02O=NON THEN 10O=NON

10. IF 02O=NON AND 03O=NON THEN 10O=NON

27

Page 29: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

Pour le jeu 2 avec une con�ance de 0.9 :

1. IF 01O=NON AND 02O=NON AND 05O=NON THEN 10O=NON

2. IF 03O=NON AND 04O=NON THEN 10O=NON

3. IF 03O=NON AND 04O=NON AND 05O=NON THEN 10O=NON

4. IF 01O=NON AND 04O=NON THEN 10O=NON

5. IF 02O=NON AND 04O=NON THEN 10O=NON

6. IF 03O=NON AND 05O=NON THEN 10O=NON

7. IF 02O=NON AND 04O=NON AND 05O=NON THEN 10O=NON

8. IF 01O=NON AND 04O=NON THEN 05O=NON

9. IF 01O=NON AND 02O=NON THEN 10O=NON 1

10. IF 02O=NON AND 03O=NON THEN 10O=NON

11. IF 01O=NON AND 03O=NON THEN 10O=NON

12. IF 02O=NON AND 05O=NON THEN 10O=NON

Pour le jeu de donné 3 avec une con�ance de 0.7 à 0.9 on a aucunerègle.

Pour le jeu de donné 4 avec une con�ance de 0.7 on a :

1. IF 05P=RDC_RC AND 02C=3 THEN 07P=MAISON

2. IF 05P=RDC_RC AND 10P=MOYEN THEN 07P=M

3. IF 05P=RDC_RC THEN 07P=MAISON

4. IF Int_ImagetteEMS98=4 AND 05P=RDC_RC THEN 07P=MAISON

5. IF 05P=RDC_RC AND 10P=FORT THEN 07P=MAISON

6. IF Int_ImagetteEMS98=5 THEN 09P=FORT

7. IF 02C=3.0 THEN 07P=MAISON

8. IF 05P=RDC_RC AND 14P=INQUIETE THEN 07P=MAISON

6.6 Arbre de décision

pour le jeu 2 on a :

04O = FAIBLE : OUI (377.74/102.51)04O = MOYEN : OUI (415.98/84.88) 04O = FORT : OUI (311.7/79.15)04O = NON| Int_ImagetteEMS98 = 0 : NON (7.15/1.84)| Int_ImagetteEMS98 = 2 : NON (117.55/48.98)| Int_ImagetteEMS98 = 3 : NON (136.55/61.07)| Int_ImagetteEMS98 = 4 : OUI (64.43/27.2)

28

Page 30: Rapport de Stage Analyse Comportementale durant et après ...calamar.univ-ag.fr/uag/ufrsen/coursenligne/sgaucher/doc/MARLIN.pdf · La mission qui m'a été con é consistait à extraire

| Int_ImagetteEMS98 = 5 : OUI (21.55/8.69)|Int_ImagetteEMS98 = 6 : OUI (5.35/1.29)| Int_ImagetteEMS98 = 7 : OUI (2.55/0.02)| Int_ImagetteEMS98 = 8 : OUI (4.07/1.28)04O = SR : SR (17.38/9.38)

Number of Leaves : 12Number of Leaves : 12

Correctly Classi�ed Instances 1052 70.9852 %Incorrectly Classi�ed Instances 430 29.0148 %

jeux 4 :

05P = RDC_RC : M (962.97/218.71)05P = 3_4_3e_4e : I (175.28/10.06)05P = 1_2_1er_2e | 02C = 7.0 : I (312.32/97.72)| 02C = 3.0 : MAISON (179.6/65.07)| 02C = 2.0 : MAISON (11.36/3.24)| 02C = 6.0 : MAISON (11.36/1.24)| 02C = 8.0 : IMMEUBLE (52.7/3.73)| 02C = 4.0 : IMMEUBLE (136.59/56.63)| 02C = 5.0 : MAISON (61.15/19.5)| 02C = 1.0 : MAISON (0.48/0.05)| 02C = SR : IMMEUBLE (14.51/4.92)| 02C = P : MAISON (1.21/0.13)05P = SS : MAISON (18.17/4.33)05P = 5+ : IMMEUBLE (19.24/0.88)05P = SR : MAISON (1.07/0.02)

Number of Leaves : 15Size of the tree : 17

Correctly Classi�ed Instances 1496 76.4045 %Incorrectly Classi�ed Instances 462 23.5955 %

29