Extraire et trier des données en ligne 2015

59
Extraire et trier des données en ligne Erwan Tanguy Stratégie et veille 06 62 15 11 02 [email protected] http://ouestlab.fr/

Transcript of Extraire et trier des données en ligne 2015

Page 1: Extraire et trier des données en ligne 2015

Extraire et trier des données en ligne Erwan Tanguy

Stratégie et veille

06 62 15 11 02 [email protected] http://ouestlab.fr/

Page 2: Extraire et trier des données en ligne 2015

Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première.

2

Page 3: Extraire et trier des données en ligne 2015

Web scraping ? Pour quoi faire ? Transférer des données d’un site vers un autre site ou vers

un document (type tableau Excel) ; Transformer des données pour y ajouter une valeur avant de

la partager sur des réseaux sociaux ; Récupérer des informations provenant de la concurrence

pour pouvoir les analyser ; Illégal : récupérer des données, les publier à son compte, les

vendre ; …

3

Page 4: Extraire et trier des données en ligne 2015

Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute.

Ce n’est en aucun cas de l’espionnage !

La veille numérique travaille à partir des données disponible légalement sur internet.

La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises.

Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter…

4

Page 5: Extraire et trier des données en ligne 2015

Des outils de web scraping Pour récupérer des données : Google spreadsheet ; Import.io ; Kimono ; Feed43 ; Pour trier, transformer ou compiler les données : Feed Rinse ; RSS Mixer ; Dlvr.it…

Pour pousser les données :

IFTTT ;

Dlvr.it ;

Zapier…

Pour partager les données :

Les suites d’outils Google (Drive, Group…) ;

Excel ;

Des intranets ou des sites privés…

Des sites ou des réseaux sociaux ouverts…

5

Page 6: Extraire et trier des données en ligne 2015

Import.io

6

Page 7: Extraire et trier des données en ligne 2015

Import.io

Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application.

7

Page 8: Extraire et trier des données en ligne 2015

Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure.

URL :

http://www.pap.fr/annonce/vente-immobiliere-rennes-35-g43618

8

Page 9: Extraire et trier des données en ligne 2015

Partons d’un exemple

9

Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.

Page 10: Extraire et trier des données en ligne 2015

Import.io Cet outil est relativement simple à

utiliser puisqu’il nécessite juste de

zoner les parties de la page avec

laquelle nous souhaitons réaliser

un flux.

Le flux obtenu pourra être

récupérer en tableau soit dans

Excel soit dans un spreadsheet

sur Drive (avec la possibilité de le

rendre dynamique).

10

Page 11: Extraire et trier des données en ligne 2015

Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :

Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes

Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau

Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données)

11

Page 12: Extraire et trier des données en ligne 2015

Import.io > Extractor

12

Page 13: Extraire et trier des données en ligne 2015

Import.io > Extractor

13

Page 14: Extraire et trier des données en ligne 2015

Import.io > Extractor

14

Page 15: Extraire et trier des données en ligne 2015

Import.io > Extractor

15

Page 16: Extraire et trier des données en ligne 2015

Import.io > Extractor

16

Page 17: Extraire et trier des données en ligne 2015

Import.io > Extractor

17

Page 18: Extraire et trier des données en ligne 2015

Import.io > Extractor

18

Page 19: Extraire et trier des données en ligne 2015

Import.io > Extractor

19

Page 20: Extraire et trier des données en ligne 2015

Import.io > Extractor

20

Page 21: Extraire et trier des données en ligne 2015

Import.io > Extractor Dans cette partie de l’application,

vous allez pouvoir ajouter les liens

des paginations suivantes pour

récupérer la suite des données.

21

Page 22: Extraire et trier des données en ligne 2015

Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données :

Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier !

22

Page 23: Extraire et trier des données en ligne 2015

Import.io > Crawler

23

Page 24: Extraire et trier des données en ligne 2015

Import.io > Crawler

24

Page 25: Extraire et trier des données en ligne 2015

Import.io > Crawler

25

Page 26: Extraire et trier des données en ligne 2015

Import.io > Crawler

26

Page 27: Extraire et trier des données en ligne 2015

Import.io > Crawler

27

Page 28: Extraire et trier des données en ligne 2015

Import.io > Crawler

28

Page 29: Extraire et trier des données en ligne 2015

Import.io > Crawler

29

Page 30: Extraire et trier des données en ligne 2015

Import.io > Crawler

30

Page 31: Extraire et trier des données en ligne 2015

Import.io > Crawler

31

Page 32: Extraire et trier des données en ligne 2015

Import.io > Crawler

32

Page 33: Extraire et trier des données en ligne 2015

kimonolabs

33

Un autre outil pour la récupération de données.

Page 34: Extraire et trier des données en ligne 2015

kimonolabs Kimonomabs propose une plateforme

en ligne et un bookmarklet pour

déclencher la récupération des données

sur une page.

Les formats de sorties sont en json, csv

ou rss. Assez simple donc ensuite de les

importer en dynamique sur un

spreadsheet par exemple.

Comme pour import.io, l’outil étant

simple, il reste limité. Pour notre

exemple, il est impossible de récupérer

les images des annonces.

34

Page 35: Extraire et trier des données en ligne 2015

kimonolabs À partir du bookmarklet, vous allez

pouvoir définir, propriété par propriété,

les différents éléments de votre

tableaux.

Si vous souhaitez récupérer un flux RSS

par la suite, je vous conseille de suivre

les noms « title » et « description » pour

définir les données principales, cela

simplifiera sa création.

Une fois terminé, il ne vous reste plus

qu’à enregistrer votre API et la

consulter ou l’intégrer à une plateforme

ou un logiciel.

35

Page 36: Extraire et trier des données en ligne 2015

Sociallymap

36

Page 37: Extraire et trier des données en ligne 2015

Sociallymap

37

Page 38: Extraire et trier des données en ligne 2015

Sociallymap > les entités

• Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux.

• Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :

Twitter

Facebook (compte et page)

Linkedin (compte et page)

Instagram

• Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu.

38

Page 39: Extraire et trier des données en ligne 2015

Sociallymap > les opérateurs

Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :

Les filtres

Le délai

Le régulateur

Le timer

Le module de rajout

Le module photo

Le modérateur

Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité.

39

Page 40: Extraire et trier des données en ligne 2015

Sociallymap > ouvrir un tableau de bord

Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple.

Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser.

40

Les modules

Le tableau de bord

Page 41: Extraire et trier des données en ligne 2015

Sociallymap > Glisser un module

41

Page 42: Extraire et trier des données en ligne 2015

Sociallymap > exemple

Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS).

Nous insérons le module flux RSS sur un tableau de bord.

Nous le renommons et ajoutons l’URL du flux avant de valider.

42

Page 43: Extraire et trier des données en ligne 2015

Sociallymap > exemple Nous plaçons ensuite un module « Rajout », des

opérateurs, que nous relions au module du flux

RSS en cliquant sur un carré pour le glisser vers

l’autre carré.

Ensuite, dans le module, nous allons pouvoir

ajouter automatiquement du texte pour tous les

articles.

Ce rajout se fait généralement sur le titre qui

constituera le contenu principal sur Twitter et le

contenu du post sur Facebook. Le lien s’ajoutera

au titre pour Twitter quand il génèrera un aperçu

sur Facebook.

Nous pouvons définir si ce rajout se place en

début ou en fin de texte.

Ici nous rajoutons des hashtags en fin de texte.

43

Page 44: Extraire et trier des données en ligne 2015

Sociallymap > exemple Nous plaçons ensuite une citerne. Ce module n’est pas obligatoire mais il permet de publier x fois le même contenu.

Pour déterminer les horaires et les jours de publications, nous ajoutons un timer. Il permet de définir les créneaux horaires de publications ainsi que le jours. Il est possible d’ajouter plusieurs timer en parallèle.

Dans l’exemple, les publications se feront du lundi au vendredi entre 9h et 18h. Ce qui ferait, au maximum, 10 publications par jour pour ce flux.

Puis nous plaçons un régulateur qui va permettre de limiter la publication à une durée (un post toutes les heures par exemple).

44

Page 45: Extraire et trier des données en ligne 2015

Sociallymap > exemple

45

Page 46: Extraire et trier des données en ligne 2015

Sociallymap > exemple

46

Page 47: Extraire et trier des données en ligne 2015

Sociallymap

47

2 modules « timer » pour varier les temps de publications en fonctions des jours

Page 48: Extraire et trier des données en ligne 2015

Sociallymap > remarques

48

La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent.

Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications.

Lire aussi http://blog.sociallymap.com/astuce-ne-jamais-placer-un-regulateur-devant-un-timer/ et http://blog.sociallymap.com/astuce-placer-un-regulateur-entre-une-citerne-et-un-profil-social/ pour le placement des modules.

Page 49: Extraire et trier des données en ligne 2015

Sociallymap

49

Exemple de tableau sur des envois vers une page Facebook

Page 50: Extraire et trier des données en ligne 2015

IFTTT

50

Page 51: Extraire et trier des données en ligne 2015

IFTTT

IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes.

Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT :

Réseaux sociaux,

Mobile (Android, iOS…),

Google (Gmail, Drive…),

Microsoft (OneDrive, Office 365…),

Objets connectés…

51

Page 52: Extraire et trier des données en ligne 2015

IFTTT > exemple avec un flux

À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive.

Flux : http://lemonde.feedsportal.com/c/205/f/672609/index.rss

Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot…

52

Page 53: Extraire et trier des données en ligne 2015

IFTTT > exemple avec un flux

53

Page 54: Extraire et trier des données en ligne 2015

IFTTT

54

Page 55: Extraire et trier des données en ligne 2015

IFTTT

55

Page 56: Extraire et trier des données en ligne 2015

Et aussi

56

Page 57: Extraire et trier des données en ligne 2015

Et aussi

RSS Mixer

Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS.

Feed Rinse

À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus.

57

Page 58: Extraire et trier des données en ligne 2015

Voir en ligne La page sur pap.fr : http://goo.gl/62sOtz

La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx

http://app.sociallymap.com

http://www.feedrinse.com

http://www.rssmixer.com/

Tableau des données sur import.io : http://goo.gl/WsRo7u

Flux RSS du kimonolabs : http://goo.gl/hRdqcX

58

Page 59: Extraire et trier des données en ligne 2015

59

Votre interlocuteur Domaines d’expertise :

Formation, Réseaux sociaux, Référencement naturel, Définition de stratégie de contenu, Analyse des statistiques, Veille numérique, Réalisation de sites web (WordPress).

Des questions ? 06 62 15 11 02 [email protected] http://ouestlab.fr/

Erwan Tanguy