Projet Big Data.pptx

10
Projet Big Data Récupération et analyse de données Flickr

Transcript of Projet Big Data.pptx

Page 1: Projet Big Data.pptx

Projet Big Data

Récupération et analyse de données Flickr

Page 2: Projet Big Data.pptx

But du progrès Récupérations des données de Flickr sur les

principales ville du monde. Stocker les données Analysé celle-ci

Page 3: Projet Big Data.pptx

Outils API Flickr Talend Cloudera

Page 4: Projet Big Data.pptx

L’API de Flickr

flickr.places.find

Recherche le place_id en fonction du nom d’une ville

flickr.photos.search

Recherche des photos par place_id

flickr.photos.getInfo

Recherche des informations complètes sur une photo

flickr.photos.getExif

Recherche les metatags d’une photo

Page 5: Projet Big Data.pptx

Récupérations des données - Principe On passe une liste de place_id récupéré au prèalable. On créer une boucle à partir de celle-ci Pour chaque boucle on interroge l’API Flickr pour

recherche les 500 dernières photos de la ville recherché

Puis pour chaque photo trouvé on récupères ses informations comme : NSID Localisation Server hebergé Nom du propriétaire de la photo …

Une fois les informations trouvé il sont enregistré un à un dans un fichier csv.

Page 6: Projet Big Data.pptx

Récupérations des donnéesListe des place_id

Cherche les photos

Cherche infos sur la photo

Exporte les données

Page 7: Projet Big Data.pptx

tSetGlobalVar

Stock ma liste de ville à chercher sous la forme de place_id interprétable par la recherche de Flickr

Page 8: Projet Big Data.pptx

tJavaFlex

Crée une boucle sur ma variable dico vu précédemment et va construire un lien unique pour chaque recherche.

Utilisation de la variable « dico »

Crée un lien en fonction de la

boucle

Déclaration de mes variables

portés

Page 9: Projet Big Data.pptx

tREST

Récupération de mon lien créer dans la boucle

précédente

Page 10: Projet Big Data.pptx

tExtractXMLFields

Création des variables

Xpath principal du XML

Assignation du contenu du XML dans les variables