Real time human pose recognition in parts from single

32
Real-Time Human Pose Recognition in Parts from Single Depth Images 1

Transcript of Real time human pose recognition in parts from single

Page 1: Real time human pose recognition in parts from single

1

Real-Time Human Pose Recognition in Parts from Single Depth Images

Page 2: Real time human pose recognition in parts from single

2

Le plan Première partie : Introduction

1-Kinect 2-Squelettisation

Deuxième partie :Les données 1-L’image de profondeur

2-Données de capture de mouvement3-Génération des données de synthétiques

Troisième partie : Partie du corps et proposition conjointes

1-Etiquetage des partie du corps2-Caracteristiques de l’image de profondeur

3-Foret de décision randomisée4-Propositions pour les positions communes

Quatrième partie : Expériences1-Résultats qualitatifs2-Précision de la classification

• Cinquième partie : Conclusion

Page 3: Real time human pose recognition in parts from single

3

Première partie

Introduction

Page 4: Real time human pose recognition in parts from single

4

Introduction

Le monde réel est composé essentiellement d’objets tridimensionnels. Une des tâches principales d’un système de vision artificielle est de pouvoir identifier et localiser ces objets à partir d’informations reçues de l’environnement.

La reconnaissance d’objets a pour but d’extraire automatiquement et efficacement le contenu intéressant, pertinent et utile de la scène c’est-à-dire de déterminer l’identité des objets formant la scène et leur disposition spatiale dans le contexte d’une tâche ou d’un processus à réaliser.

Page 5: Real time human pose recognition in parts from single

5

Kinect

Kinect, initialement connu sous le nom de code Project Natal1 est un périphérique destiné à la console de jeux vidéo Xbox 360permettant de contrôler des jeux vidéo sans utiliser de manette,

Page 6: Real time human pose recognition in parts from single

6

Projecteur IR(Infrarouge)RGB(Red Green Blue)

Page 7: Real time human pose recognition in parts from single

Squelettisation

Décrire un objet par une représentation de type "squelette" constitue une étape importante dans un certain nombre d’applications relevant du domaine du traitement des images ou de la reconnaissance de formes.

7

Page 8: Real time human pose recognition in parts from single

Deuxième partie

Les données

8

Page 9: Real time human pose recognition in parts from single

9

Les données

2 problèmes font faces au développement du domaine :

- Génération d’images réalistes en utilisant les technologies informatiques . -La position du corps de synthèse qui va être sujet d’étude en utilisant la «mocap»(malgré l’ éxistance de plusieurs logiciel et application permettant de simuler le mouvement humain) .

Page 10: Real time human pose recognition in parts from single

10

Les données 1/-Image de profondeur (1)

Cam kinect résolution de 640*480 donnant 30 image/seconde

Page 11: Real time human pose recognition in parts from single

11

Les données 1/-Profondeur d’imagerie (2)

Caractéristiques de la Cam Kinect :-fonctionne en faible luminosité .-permet de résoudre le problèmes

d’ambiguïté des silhouettes des personnes utilisées comme sujet .

-élimine les problèmes liés aux textures de vêtements ,leur couleur et la formes des cheveux . -Synthétisation des images réalistes de profondeurs ,cela donne un ensemble de données de grandes formation .

Page 12: Real time human pose recognition in parts from single

12

Les données 2/-Données de capture de mouvements (1)

Problème :

La variété de mouvement du corps humain

Difficulté de simulation

Page 13: Real time human pose recognition in parts from single

13

Les données 2/-Données de capture de mouvements (2)

Solution :utilisation de la mocapC’est quoi la mocap (La capture de

mouvements) ??Mocap : une technique permettant de capter les

mouvements d'un élément réel afin de les renvoyer dans un univers virtuel : les mouvements sont enregistrés ou restitués en temps réel vers d'autres systèmes.

Base de données de la mocap utilisés est d’environ

500 kcadres .

Page 14: Real time human pose recognition in parts from single

14

Les données 2/-Données de capture de mouvements (3)

Les enregistrements pris avec des sujet de large corpuscule:- pas de capture de mocap avec rotation

sur un axe vertical - la mise en miroir de la scène de gauche a

droite aussi la forme du corps et la taille .- Aucune information temporelle n’est prise

en charge

Page 15: Real time human pose recognition in parts from single

15

Les données 2/-Données de capture de mouvements (4)

1iers résultats obtenus

Acceptables ,mais ne couvrent pas la totalité du corps de synthèse utilisé

Page 16: Real time human pose recognition in parts from single

16

Les données 3/-Générations de données synthétiques (1)

L’objectif de cette étape

Avoir une succession d’images réalistes et variantes

Page 17: Real time human pose recognition in parts from single

Les données 3/-Générations de données synthétiques (2)

17

Page 18: Real time human pose recognition in parts from single

18

Troisième partie Proposition donnée pour les positions du corps humain

Page 19: Real time human pose recognition in parts from single

Proposition donner pour les positions du corps humain1/-Etiquetage des parties du corps (1)

Répartition du corps humain en partie grâce a des pièces lumineuses couvrant le corps permettant la localisation des articulations et le squelette humain .

Les pièces lumineuses sont placés sur une combinaison utilisés sur différents personnes

Pour l’ expérience 31 parties du corps seront utilisées

19

Page 20: Real time human pose recognition in parts from single

Proposition donner pour les positions du corps humain 2/- Caractéristique de l’image de profondeur(1)

20

Croix jaune = le pixel xCercle rouge = pixel compensé tq le définit l’ équation

Page 21: Real time human pose recognition in parts from single

Proposition donner pour les positions du corps humain 2/-Caractéristique de l’image de profondeur(2)

21

( )ID x = Profondeur de x pixels de l’image

U et V = Paramètres de compensation

Page 22: Real time human pose recognition in parts from single

22

Proposition donner pour les positions du corps humain 3/-Foret de décision randomisée

Arbres et forêt de décision randomisés ont prouvé leur efficacité et rapidité pour avoir un classificateurs multi-classes pour de nombreuses tâches, ils peuvent être appliquées efficacement sur le GPU . une forêt est un ensemble d'arbres de décision T, chacun composé de diviser et de nœuds ou feuilles. Chaque nœud est constitué d'un diviseur de fonctionnalité. Pour classer x pixel dans l'image I, on commence de la racine et on évalue plusieurs reprises

Page 23: Real time human pose recognition in parts from single

23

Proposition donner pour les positions du corps humain 4/-Proposition pour les positions communes

Pixel =information pour avoir la reconnaissance des partie du corps

Résultats accumulés =possibilité de faire un auto-suivi permettant aussi la récupération en cas d’ echec

Page 24: Real time human pose recognition in parts from single

24

Quatrième partie

Expériences

Page 25: Real time human pose recognition in parts from single

25

Expériences

Dans cette section, nous décrivons des expériences réalisées au évaluer notre méthode.

Nous montrons à la fois des résultats qualitatives et quantitatives sur plusieurs jeux de données difficiles, et de comparer avec les deux plus proches voisins des approches et l'Etat de l'art .

Page 26: Real time human pose recognition in parts from single

26

Expériences 4.1. Les résultats qualitatifs(1)

Page 27: Real time human pose recognition in parts from single

27

Expériences 4.2. précision de la classification(1)

Nous étudions l'effet de plusieurs paramètres de formation sur la précision de la classification. Les tendances sont fortement corrélés entre les ensembles de test synthétiques et réelles, et le véritable test mis en apparaît constamment plus «facile» que l'ensemble de test synthétique, probablement dû à la moins varié pose actuellement.

Page 28: Real time human pose recognition in parts from single

28

Expériences 4.2. précision de la classification(2)

Silhouette d'images. Nous montrons aussi dans la Fig. 6 (a) la qualité de notre approche sur des images de synthèse silhouette, où les fonctions dans l'équation 1 sont donnés soit l'échelle (comme la profondeur moyenne) ou non (une profondeur constante fixée). Pour l'articulation correspondante prédiction utilisant une métrique 2D avec un effet positif de 10 pixels vraie seuil, nous avons obtenu 0,539 MAP avec l'échelle et 0,465 mAP sans. S'il est clair que la tâche des ambiguïtés en raison de la profondeur, Ces résultats suggèrent l'applicabilité de notre approche d'autres modalités d'imagerie.

Page 29: Real time human pose recognition in parts from single

29

Expériences 4.2. précision de la classification(3)

Page 30: Real time human pose recognition in parts from single

30

Expériences 4.2. précision de la classification(4)

nous montre la formation des images 5k, où «maximum offset de la sonde », le max. valeur absolue proposé pour les deux coordonnées x et y de u et v dans l'équation. 1. Le concentriques cases sur la droite montrent l'off 5 maximale testée jeux calibrés pour un pixel épaule gauche dans cette image, le plus compensée couvre presque tout le corps. (Rappelons que cette décalage maximum des échelles avec la profondeur du monde du pixel). Comme la sonde décalage maximum est augmenté, le classificateur est capable à utiliser le contexte plus spatial pour rendre ses décisions, même si sans suffisamment de données finirait risques sur-apprentissage à cette contexte. Augmente la précision avec la sonde décalage maximum, si les niveaux hors environ 129 mètres de pixels.

Page 31: Real time human pose recognition in parts from single

31

ConclusionLa kinect est un appareil très récent qui offre encore

de nombreuses opportunités pour les années à venir. L'étude de ses caractéristiques prouve que c'est un appareil fiable. Cependant on peut voir qu'on aura du mal à obtenir des résultats très précis. D'un autre côté, la stéréoscopie permet d'obtenir des résultats aux premiers abords moins bons, mais qui peuvent être améliorés avec de meilleures caméras et des conditions optimales. Ainsi, avant de chercher à modéliser l'ensemble d'une main, il faut trouver une technologie qui nous permette d'obtenir des résultats précis et convainquant pour la modélisation 3D.

Page 32: Real time human pose recognition in parts from single

32

Merci pour votre attention