Extraire et trier des données en ligne 2015

Post on 13-Apr-2017

4.721 views 0 download

Transcript of Extraire et trier des données en ligne 2015

Extraire et trier des données en ligne Erwan Tanguy

Stratégie et veille

06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/

Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première.

2

Web scraping ? Pour quoi faire ? Transférer des données d’un site vers un autre site ou vers

un document (type tableau Excel) ; Transformer des données pour y ajouter une valeur avant de

la partager sur des réseaux sociaux ; Récupérer des informations provenant de la concurrence

pour pouvoir les analyser ; Illégal : récupérer des données, les publier à son compte, les

vendre ; …

3

Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute.

Ce n’est en aucun cas de l’espionnage !

La veille numérique travaille à partir des données disponible légalement sur internet.

La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises.

Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter…

4

Des outils de web scraping Pour récupérer des données : Google spreadsheet ; Import.io ; Kimono ; Feed43 ; Pour trier, transformer ou compiler les données : Feed Rinse ; RSS Mixer ; Dlvr.it…

Pour pousser les données :

IFTTT ;

Dlvr.it ;

Zapier…

Pour partager les données :

Les suites d’outils Google (Drive, Group…) ;

Excel ;

Des intranets ou des sites privés…

Des sites ou des réseaux sociaux ouverts…

5

Import.io

6

Import.io

Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application.

7

Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure.

URL :

http://www.pap.fr/annonce/vente-immobiliere-rennes-35-g43618

8

Partons d’un exemple

9

Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.

Import.io Cet outil est relativement simple à

utiliser puisqu’il nécessite juste de

zoner les parties de la page avec

laquelle nous souhaitons réaliser

un flux.

Le flux obtenu pourra être

récupérer en tableau soit dans

Excel soit dans un spreadsheet

sur Drive (avec la possibilité de le

rendre dynamique).

10

Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :

Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes

Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau

Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données)

11

Import.io > Extractor

12

Import.io > Extractor

13

Import.io > Extractor

14

Import.io > Extractor

15

Import.io > Extractor

16

Import.io > Extractor

17

Import.io > Extractor

18

Import.io > Extractor

19

Import.io > Extractor

20

Import.io > Extractor Dans cette partie de l’application,

vous allez pouvoir ajouter les liens

des paginations suivantes pour

récupérer la suite des données.

21

Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données :

Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier !

22

Import.io > Crawler

23

Import.io > Crawler

24

Import.io > Crawler

25

Import.io > Crawler

26

Import.io > Crawler

27

Import.io > Crawler

28

Import.io > Crawler

29

Import.io > Crawler

30

Import.io > Crawler

31

Import.io > Crawler

32

kimonolabs

33

Un autre outil pour la récupération de données.

kimonolabs Kimonomabs propose une plateforme

en ligne et un bookmarklet pour

déclencher la récupération des données

sur une page.

Les formats de sorties sont en json, csv

ou rss. Assez simple donc ensuite de les

importer en dynamique sur un

spreadsheet par exemple.

Comme pour import.io, l’outil étant

simple, il reste limité. Pour notre

exemple, il est impossible de récupérer

les images des annonces.

34

kimonolabs À partir du bookmarklet, vous allez

pouvoir définir, propriété par propriété,

les différents éléments de votre

tableaux.

Si vous souhaitez récupérer un flux RSS

par la suite, je vous conseille de suivre

les noms « title » et « description » pour

définir les données principales, cela

simplifiera sa création.

Une fois terminé, il ne vous reste plus

qu’à enregistrer votre API et la

consulter ou l’intégrer à une plateforme

ou un logiciel.

35

Sociallymap

36

Sociallymap

37

Sociallymap > les entités

• Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux.

• Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :

Twitter

Facebook (compte et page)

Linkedin (compte et page)

Instagram

• Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu.

38

Sociallymap > les opérateurs

Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :

Les filtres

Le délai

Le régulateur

Le timer

Le module de rajout

Le module photo

Le modérateur

Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité.

39

Sociallymap > ouvrir un tableau de bord

Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple.

Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser.

40

Les modules

Le tableau de bord

Sociallymap > Glisser un module

41

Sociallymap > exemple

Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS).

Nous insérons le module flux RSS sur un tableau de bord.

Nous le renommons et ajoutons l’URL du flux avant de valider.

42

Sociallymap > exemple Nous plaçons ensuite un module « Rajout », des

opérateurs, que nous relions au module du flux

RSS en cliquant sur un carré pour le glisser vers

l’autre carré.

Ensuite, dans le module, nous allons pouvoir

ajouter automatiquement du texte pour tous les

articles.

Ce rajout se fait généralement sur le titre qui

constituera le contenu principal sur Twitter et le

contenu du post sur Facebook. Le lien s’ajoutera

au titre pour Twitter quand il génèrera un aperçu

sur Facebook.

Nous pouvons définir si ce rajout se place en

début ou en fin de texte.

Ici nous rajoutons des hashtags en fin de texte.

43

Sociallymap > exemple Nous plaçons ensuite une citerne. Ce module n’est pas obligatoire mais il permet de publier x fois le même contenu.

Pour déterminer les horaires et les jours de publications, nous ajoutons un timer. Il permet de définir les créneaux horaires de publications ainsi que le jours. Il est possible d’ajouter plusieurs timer en parallèle.

Dans l’exemple, les publications se feront du lundi au vendredi entre 9h et 18h. Ce qui ferait, au maximum, 10 publications par jour pour ce flux.

Puis nous plaçons un régulateur qui va permettre de limiter la publication à une durée (un post toutes les heures par exemple).

44

Sociallymap > exemple

45

Sociallymap > exemple

46

Sociallymap

47

2 modules « timer » pour varier les temps de publications en fonctions des jours

Sociallymap > remarques

48

La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent.

Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications.

Lire aussi http://blog.sociallymap.com/astuce-ne-jamais-placer-un-regulateur-devant-un-timer/ et http://blog.sociallymap.com/astuce-placer-un-regulateur-entre-une-citerne-et-un-profil-social/ pour le placement des modules.

Sociallymap

49

Exemple de tableau sur des envois vers une page Facebook

IFTTT

50

IFTTT

IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes.

Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT :

Réseaux sociaux,

Mobile (Android, iOS…),

Google (Gmail, Drive…),

Microsoft (OneDrive, Office 365…),

Objets connectés…

51

IFTTT > exemple avec un flux

À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive.

Flux : http://lemonde.feedsportal.com/c/205/f/672609/index.rss

Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot…

52

IFTTT > exemple avec un flux

53

IFTTT

54

IFTTT

55

Et aussi

56

Et aussi

RSS Mixer

Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS.

Feed Rinse

À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus.

57

Voir en ligne La page sur pap.fr : http://goo.gl/62sOtz

La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx

http://app.sociallymap.com

http://www.feedrinse.com

http://www.rssmixer.com/

Tableau des données sur import.io : http://goo.gl/WsRo7u

Flux RSS du kimonolabs : http://goo.gl/hRdqcX

58

59

Votre interlocuteur Domaines d’expertise :

Formation, Réseaux sociaux, Référencement naturel, Définition de stratégie de contenu, Analyse des statistiques, Veille numérique, Réalisation de sites web (WordPress).

Des questions ? 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/

Erwan Tanguy