Le SIDV Système décisionnel pour lexploitation des remontées des données de validations...

34
Le SIDV Système décisionnel pour l’exploitation des remontées des données de validations télébillettiques

Transcript of Le SIDV Système décisionnel pour lexploitation des remontées des données de validations...

Page 1: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le SIDV

Système décisionnel pour l’exploitation des remontées des données de validations

télébillettiques

Page 2: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le STIF

Le STIF imagine, organise et finance les transports publics pour tous les Franciliens.

Au cœur du réseau de transports d’Ile-de-France, le STIF fédère tous les acteurs  (voyageurs, élus, constructeurs, transporteurs, gestionnaires d’infrastructures, …). Il investit et innove pour améliorer le service rendu aux voyageurs.

  Le STIF, composé de la Région Ile-de-France, de la Ville de Paris et des sept autres

départements franciliens, porte la vision de l’ensemble des transports franciliens (train, RER, métro, tramway, T Zen et bus).

Ainsi, il décide et pilote les projets de développement et de modernisation de tous les transports, dont il confie l’exploitation à des transporteurs.

2

Page 3: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

La région Ile de France

12 millions d’habitants (18% de la pop française) 6 millions d’emplois

1 750 km de lignes ferrées

(métro + RER + trains) desservant environ 450 gares ou stations 4 lignes de tramway 25 000 km de lignes de bus, 30 000 arrêts desservis par environ 1 500 lignes

2.6 milliards de voyages annuels sur les réseaux ferrés 1.3 milliards de voyages annuels sur les réseaux de bus

… soit environ 4 milliards de voyages par an en transports en commun3

Page 4: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le projet SIDV

L’historique

Les données

La CNIL

Type d’exploitations

4

Page 5: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Historique du projet

Création des titres sur support télébillettique

Au début, il y avait le titre « papier »…

Et une technologie de type carte à puce en plein développement ….

Deux systèmes amenés à se croiser…

5

Page 6: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Historique du projet

En 2001, passage des cartes Intégrale sur passe Navigo, puis … La carte I’R Etudiant en 2002 …. et la carte I’R Scolaire en 2003

En 2004, une expérimentation de la Carte Orange sur passe Navigo a été menée dans le 12e arrondissement de Paris. En 2005, cette expérimentation est élargie aux zones 1 et 2

En 2006, il n'est plus distribué de coupons magnétiques aux usagers possédant un passe Navigo et mi-mai 2006, c’est au tour de tous les Franciliens, quelles que soient leurs zones, de pouvoir disposer de leur abonnement Carte Orange sur passe Navigo. Cependant, le choix entre passe Navigo et carte orange « magnétique » est toujours possible

En septembre 2007, le STIF introduit une nouvelle version du passe Navigo, le passe Navigo Découverte. Cette nouvelle version donne désormais accès à Navigo à l'ensemble des usagers non franciliens et répond aux injonctions de la CNIL.

En 2009, la carte orange disparait définitivement !!!

6

Page 7: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le projet SIDV

L’historique

Les données

La CNIL

Type d’exploitations

7

Page 8: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Les données remontées

Les données collectées sont de 2 types:

Des données issues des informations contenues dans le passe Navigo

Des données sur les actes de validations, remontées via les valideurs des différents transporteurs

…. données auxquelles on ajoute des données de « référentiels » STIF

Données remontées:contrats + validations

8

Page 9: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Les données remontées

Les données remontées : Les données issues des informations contenues dans le passe Navigo

Les données sur les actes de validations, remontées via les valideurs des différents transporteurs

Groupe Nom

Date de validation.Date et heure desvalidations. Heure de validation.

Nature de la validation. Nature de la validation.

Lieu de validation. Lieu de validation.

Identité de l’exploitant.

Identificateur de l’équipement.

Référence de la ligne.

Référence de la mission.

Référence de la ligne.

Identificateur du véhicule.

- Une date et une heure- Une nature (entrée, sortie, correspondance)

- Et un lieu (station, gare, arrêt, ligne, mission, …)

Groupe NomExploitant fournissant le contrat.Type de contrat.Type de contrat.

N° de la carteanonymisé.

Numéro de série de la carteanonymisé.

Profil. Profil du porteursi contrat social :

Date de début du contrat.

Date de fin du contrat.

Origine.

Destination.

Validité du contrat.

Zones de validité du contrat.

Date de vente du contrat.Vente du contratExploitant ayant vendu le contrat.

- Un contrat (titre)

- Un numéro unique (anonyme)

- Un profil (donnant droit à titre particulier)

- Une validité (date, zone, OD, …)

9

Page 10: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Les données remontées

Quelques chiffres:o Environ 10 millions de validations remontées par jour ouvrable (5 millions un samedi, 3

millions un dimanche) près de 2,5 milliards de validations par an

o Des données conservées de 2 à 5 ans 6 To de données stockés sur nos serveurs !10

Page 11: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Les données remontées

La qualité et l’exhaustivité des données dépendent :o Des titres de transports hors télébillettique (environ 15% du trafic ferré, un peu plus sur

les réseaux de surface)o De l’équipement en valideurs (en sortie, en entrée…). Environ 20% du trafic SNCF se

situe dans des gares « ouvertes »o Des contraintes d’exploitation pour les opérateurs (ouvertures des tourniquets, pannes

de valideurs, …)o Du comportement des usagers (comment mesurer le taux de validation ou assurer la

validation systématique)

o Et des référentiels parfois « absents »: le passage des arrêts sur les lignes de bus dépend parfois du machiniste

11

Page 12: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le système mis en œuvre

12

analyser, exploiter,

comprendre

Reporting

Extraction

et au-delà

Zone tampon

Vérification,Nettoyage, Optimisation

Vérification des contraintes d'intégrité référentielle .

Passé un certain nombre de jours, on considère que les données qui sont systématiquement rejetées le seront toujours. On purge alors ces données et elles ne pourront plus être recyclées.

jusqu’à J+30

Référentiel STIF

Collecte des

données

Réception

entre J+2 et J+5

Historiser

à J+30

Entrepôt

Données de Référentiel

Données de Validation

A2

Validation Jour J

A1

A1

A1

Page 13: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le projet SIDV

L’historique

Les données

La CNIL

Type d’exploitations

13

Page 14: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le système d’anonymisation

Dans sa « délibération portant autorisation unique de mise en œuvre de traitements automatisés de données à caractère personnel relatifs à la gestion des applications billettiques par les exploitants et les autorités organisatrices de transport publics (décision d'autorisation unique n° AU-015) », les préoccupations de la CNIL sont notamment:

– « L'autorité organisatrice de transport doit mettre en œuvre, dans la mesure du possible, les moyens nécessaires pour la préservation d'une alternative au titre nominatif quel que soit le type d'abonnements. Elle doit ainsi prévoir des abonnements sur des titres qui préservent l'anonymat des déplacements. »

– Art.2: « les données de validation : date, heure, lieu de la validation ne peuvent être collectées et associées aux données d'identification de l'abonné (par exemple, son numéro de carte) que dans le cadre du traitement de la détection de la fraude ; ces données, non associées aux numéros de carte ou à quelque autre moyen d'identification directe des abonnés, peuvent être collectées à des fins statistiques »

14

Page 15: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le système d’anonymisation

– Art 4: « Dans le cadre des traitements mis en œuvre, les données de validation font l'objet d'une anonymisation à bref délai. Cette anonymisation est réalisée soit par la suppression complète du numéro de carte, soit par la suppression conjointe de la date, de l'heure et du lieu de passage, soit encore par l'application au numéro de carte d'un algorithme cryptographique de « hachage » public réputé fort. »

– Art 5:   Si l'anonymisation utilise un algorithme de « hachage », celui-ci est irréversible et doit recourir à une clé cryptographique renouvelable selon une périodicité au moins annuelle. Les composants ou les clés sont répartis entre plusieurs organismes ou plusieurs personnes habilitées, chacune ne disposant au plus que d'un composant ou clé, afin de garantir l'objectif de sécurité visé. »

15

Page 16: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le système d’anonymisation

Pour répondre aux souhaits de la CNIL:

o Aucune donnée concernant l’individu porteur de la carte (CSP, âge, résidence, ..) ne remonte dans le système. Ces données sont collectées au niveau transporteur uniquement.

o Un système de double anonymisation du N° de carte (chez les transporteurs et au STIF)o Un changement trimestriel des clés d’anonymisationo Des durées de conservation adaptées aux usages ( de 2 à 5 ans)o Une infrastructure informatique permettant un niveau de sécurité en rapport avec le

risqueo Des éléments de sécurisation au niveau de l’exploitation des donnéeso Une gestion des habilitations et des profils des utilisateurs du système

o Et la création d’un pass « anonyme » attaché à aucun fichier client.

16

Page 17: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le projet SIDV

L’historique

Les données

La CNIL

Type d’exploitations

17

Page 18: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Aujourd’hui, une semaine donnée, environ 1 million de personnes utilisent un forfait Navigo, 850 000 une carte intégrale, 700 000 une I’R. Les remontées de validation sont fiables et le système est rodé. On peut donc:

Disposer d’une information homogène :o Grâce à l’intégration tarifaireo Par l’acquisition de données issues de l’ensemble des opérateurs de transport de

la Région

Apporter des mesures précises et « indépendantes » aux différents stades des prises de décisions du STIF :o Connaître plus précisément les usages des titres et de la mobilité pour évaluer

les manques et carenceso Evaluer et simuler l’impact de mesures nouvelleso Mesurer l’incidence des décisions du STIF sur l’usage des transports collectifs

(consommation des titres, fréquentation des nouveaux services…)

Les oportunités

18

Page 19: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

3 exploitations particulières

Adéquation offre / demande

19

Page 20: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Corrélation offre/trafic en période vacances

Contexte : Problème d’adéquation offre-demande remonté par les courriers voyageurs Le changement « offre d’hiver » / « offre d’été » s’effectuerait une semaine trop tôt en

juillet, entrainant un service non adapté à la demande des usagers

Objectif : Illustrer l’évolution de la fréquentation Problématique d’adéquation offre – demande en été Proposer des arguments en faveur du maintien d’une offre « d’hiver » la seconde

semaine de juillet Compensation en mettant en place une offre « d’ été » la dernière semaine de décembre

pour garantir le même niveau d’offre sur l’année

20

Page 21: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Corrélation offre/trafic en période vacances

21

0

50

100

150

200

250

300

350

0

5000

10000

15000

20000

25000

30000

35000

Fréquentation moyenne JO Nombre de trains

RER B - Fréquentation journalière (JO) moyenne en heure de pointe du matin

Page 22: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Corrélation offre/trafic en période vacances

22

Conclusion de l’analyse : Le passage à l’horaire de juillet s’effectue une semaine trop tôt Mise en évidence d’une baisse de fréquentation de l’ordre de 10% par rapport au mois

précédent correspondant à une baisse de l’offre de l’ordre de 20% La fréquentation des deux dernières semaines de décembre, et en particulier celle de la

dernière semaine, apparaît compatible avec un service réduit de juillet

Ce qu’apporte l’analyse des DV : Apport d’éléments concrets dans

le cadre d’une négociation avec les transporteurs

Limites : Fréquentation incomplète : biais lié à l’absence du magnétique Gares du tronçon central non prises en compte dans l’analyse car il n’est pas possible

d’affecter les validations des gares de correspondance à une ligne ferrée

0

50

100

150

200

250

300

350

0

5000

10000

15000

20000

25000

30000

35000

Fréquentation moyenne JO Nombre de trains

Page 23: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

3 exploitations particulières

Zoom sur le rabattement gare

23

Page 24: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Zoom : le Rabattement

OBJECTIFS DE L’ANALYSE DU RABATTEMENT AUX GARES

L'analyse des périmètres de rabattement sur les gares a pour objectif de connaître la structure géographique et temporelle du bassin de rabattement à une gare de façon à mieux analyser :

• L’usage des lignes en rabattement• l'aménagement (organisation des arrêts de bus, parking, …) autour de la gare. L'analyse du rabattement des bus sur les gares a pour objectif de :

• connaître la part de trafic de lignes de bus liée à un rabattement sur une gare ou plusieurs gares,

• connaître la part des validations en gare en provenance des modes bus,• connaître par différence le rabattement sur la gare via les autres modes de

transport (pied, vélo, voiture, …).

Page 25: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Zoom : le Rabattement

Le rabattement/correspondance sur une gare consiste en l'utilisation d'un mode de transport permettant la correspondance avec cette gare.

Sont distingués :• la correspondance via le réseau ferré (métro, RER, train, …), • le rabattement en bus/tramway,• le rabattement via un autre mode de transport (pied, vélo, voiture, …).

Le schéma ci-dessous présente les différents modes de rabattement ou correspondance à une gare.

Gare

GareAutre rabattement (non transport en commun), avec origine et itinéraire inconnus

GareRabattement bus, avec itinéraire (ligne empruntée) connu

GareRabattement ferré, avec origine connue mais itinéraire inconnu

GareAutre rabattement (non transport en commun), avec origine et itinéraire inconnus

GareRabattement bus, avec itinéraire (ligne empruntée) connu

GareRabattement ferré, avec origine connue mais itinéraire inconnu

Page 26: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Zoom : le Rabattement

Dans le SIDV, on peut étudier:

Rabattement vers une gare:- Le nombre de validations à une gare et les cartes ayant réalisées ces validations- Pour ces mêmes cartes, les validations précédentes ayant été réalisées moins de

45 minutes AVANT la validation en gare. On va alors restituer le mode, la station, la ligne …. de cette validation « précédente ».

- OU

Rabattement depuis une ligne de bus:- Les validations sur une ligne de bus et les cartes ayant réalisées ces validations- Pour ces mêmes cartes, les validations suivantes ayant été réalisées moins de 45

minutes APRES la validation bus. On va alors restituer la station ou la gare de cette validation « suivante ».

Page 27: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Zoom : le Rabattement

Gare Nombre total de validations en gare Nombre de rabattements TC Nombre de rabattements non TC % de rabattements TC

LES MUREAUX 4 661 1 114 3 547 24 %

TOTAL 4 661 1 114 3 547 24 %

Gare Mode de rabattement Nombre de rabattements / correspondances % des rabattements TC

BUS 1 108 24 %

METRO 0 0%

FERRE 5 0 %

TRAMWAY 1 0 %

TRAMWAY/TRAIN 0 0%

AUTRES 3 547 76 %

TOTAL 4 661

LES MUREAUX 20 mn 43 s

30 mn 43 s

37 mn 18 s

Temps moyen

Le 8 mars 2012, 4661 validations d’entrée, dont 1114 cartes avec une validation réalisée moins de 45 minutes avant

1109 de ces validations ont été réalisés

sur un mode de surface…….

Page 28: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Zoom : le Rabattement

Gare Ligne de rabattement Nombre de rabattements en % des rabattements Bus

011 - 011 - 013 69 6 %

011 - 011 - 180 15 1 %

011 - 011 - 320 418 38 %

011 - 011 - 321 233 21 %

011 - 011 - 322 89 8 %

011 - 011 - 323 30 3 %

011 - 011 - 324 17 2 %

011 - 011 - 325 62 6 %

052 - 052 - 080 25 2 %

057 - 314 - 001 76 7 %

Autres 75 7 %

TOTAL 1 109

1 109

LES MUREAUX

TOTAL

Ces 1109 validations peuvent être réparties par lignes et tranche horaire…….

Page 29: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

3 exploitations particulières

Restructuration d’un pole

29

Page 30: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

La restructuration Pointe du Lac

Avant l’exploitations du SIDV, un autre type d’exploitations plus « classique », celui de fiches contrat RATP :

Charge inter-arrêts JOB

Exploitation des matrices OD JOB

Mesure des descendants bus à une gare

(<> rabattement avec emprunt du ferré)

Page 31: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

La restructuration Pointe du Lac

Compléter désormais par des exploitations SIDV : Gares de rabattement depuis les arrêts bus : vision ligne

Page 32: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

La restructuration Pointe du LacSIDV : part du rabattement vers gares au niveau des arrêts busvision arrêt

Page 33: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

La restructuration Pointe du Lac

SIDV : gares de rabattement

depuis les arrêts bus : vision

multi-lignes

Page 34: Le SIDV Système décisionnel pour lexploitation des remontées des données de validations télébillettiques.

Le SIDV

En résumé ….o Le système peut être considéré comme rodé. Les validations remontent correctement et

exhaustivement, mais : les données sont sensibles et nécessite un traitement important les informations remontées sont nombreuses, parfois complexes et dépendent fortement

de paramètres « exogènes » au système (taux de validation, qualité des référentiels, …) les risques de mauvaises interprétation aussi (journée particulière, valideurs en panne, ..)

Et encore: Seul le STIF peut réaliser certains types d’analyse car il dispose de données multi-

opérateurs Nécessite une expertise et une organisation importante pour faire connaitre les

potentialités de l’outil et ses limites, cibler les besoins de chacun, apporter un éclairage nouveau ….

Nécessite de faire le travail à la main (pas de cartographie des pôles et de la position de chaque ligne de contrôle accessible facilement)

Nécessite de travailler encore plus sur les référentiels, sur la connaissance des biais éventuels, et sur l’exhaustivité des données (contrat STIF/transporteurs), d’améliorer la qualité des données, …..

34