Qualité de l’information et des documents numériques (1 ... · • Essai d'application du suivi...
Transcript of Qualité de l’information et des documents numériques (1 ... · • Essai d'application du suivi...
1
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qualité de l’information et des documents numériques (1)
Partie méthodologique
Isabelle Boydens
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Position du problème et enjeux• Analyse : dimensions de la qualité des
données• Méthodes d'amélioration de la qualité• Conclusions
Plan de l'exposé
2
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Définitions• Symptômes de la "non qualité"• Coûts de la "non qualité"• Causes de la "non qualité"
Position du problème et enjeux
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Définitions : plan
• Les origines du concept de qualité• La qualité des bases de données• Les bases de données administratives :
caractéristiques
3
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les origines du concept de qualité
• !"#"$, qualis, “quel ?”, "welk ?"• "qualité" versus "quantité" • degré plus ou moins élevé d'une échelle
de valeurs pratiques – Normes ISO 9000– « aptitude d’un ensemble de caractéristiques
intrinsèques à satisfaire des exigences »
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les origines du concept de qualité
• Normes en matière de production industrielle (taylorisme, années 20)
• Apports : – Concept de "one best" :
• La perfection est une "non valeur"• Arbitrage "coût-bénéfice"• La "sur-qualité" est de la "non-qualité"
– Importance de la notion de client, de marché (cfr couleur des voitures Ford)
– Evolution historique de la notion de « qualité » : apparition à l’heure actuelle du « sur mesure » en masse
4
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C1-2 Les aspects relatifs de la Qualité
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
De la nécessité d’être précis …
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C1-2 Les aspects relatifs de la Qualité
De la nécessité d’être précis …
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
5
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C1-2 Les aspects relatifs de la Qualité
De la nécessité d’être précis …
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
On peut conjecturer que la qualité était associée:
à l’artà l’artisanatà l’aptitude des silex, obsidiennes à produire des outilsà la localisation des lieux de production naturelle, les lieux de cueilletteà la localisation temporelle et spatiale des lieux de passage des animaux et à l’organisation de la chasse.
On peut conjecturer que:
• la distinction entre client et fournisseur était floue.
• le client est la plus part du temps l’inventeur ou artisan du produit et donc son propre fournisseur.
Venus de Brassempouy
• Esthétique• Utilité• Efficacité• Préservation de l’environnement
Exigences
Caractéristiques
Produit
Personne
=
==
Exigences
Caractéristiques
Produit
Personne
=
==
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
6
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Agrarian Revolution
La maîtrise de la production agricole modifie la société. Elle permet aux premières citées de se développer et la construction d’œuvres gigantesques telles que le Sphinx de Gizeh.
La qualité devait sans doute être associée à la possibilité de produire en quantité des produits agricoles et de les conserver
La qualité devait être également un des éléments importants dans le choix des matériaux de construction, la taille des pierre, les process de construction. La construction de la pyramide de Keops a duré plus de 20 ans!
L’objet de la qualité était un couple (produit, process)
Les exigences sont exprimées par les théocrates.
Le paysan est sous l’emprise totale du client.
La participation active du client (la théocratie) dans le fourniture du produit s’est estompée.
The first waveThe first wave
EsthétiqueEfficacitéConservabilitéReproductibilité
Exigences
Caractéristiques
Produit
Personne
=
==
Exigences
Caractéristiques
Produit
Personne
=
==
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Industrial Revolution
Les découvertes technologiques font émerger des produits nouveaux. La force mécanique, s’alliant et se substituant progressivement au travail physique, permet une production de masse.
L’objet de la qualité porte avant tout sur le couple (produit, process), process qui sont soumis aux grands courants de pensée suivants:
Le taylorisme, l’OST, Organisation Scientifique du TravailLe fordisme, le travail à la chaîne, avec un objectif unique de production d’un produit. Le marché se saturant progressivement apparaît alors le sloanisme (GM), qui diversifie l’objectif de production vers une variété de l'offre, c'est-à-dire une gamme de produits
Monet
Charlie Chaplin : Les temps modernes
The second waveThe second waveDistinction nette entre client et fournisseur. Le client ne participe pas. Il lui est demandé de consommer de manière uniforme. La production de masse implique une consommation de masse d’un produit uniforme.
Avec l’intégration verticale poussée au maximum dans le cas du fordisme, le fournisseur a pris la maîtrise totale des exigences.
TechnologiesReproductibilitéEfficacité
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
7
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les progrès technologiques se poursuivent. Tout nouveau produit finit par saturer le marché.
L’objet de la qualité s’étend aux exigences du client.
Apparaît alors le toyotisme qui, pour maîtriser les stocks et les coûts, active des chaînes multiples de production en fonction de la demande. (« Just in time ») et multiple la sous-traitance.
Parallèlement l’Informatique poursuit son développement s’alliant et se substituant progressivement au travail intellectuel permet la traitement automatique de l’information et permet au fournisseur de connaître intimement ses clients (CRM).
L’informatique s’alliant et se substituant progressivement à la force mécanique et au travail physique (robots) fait émerger le concept de la production du sur-mesure de masse.
Avec la saturation du marché, usant de son pouvoir de choix, le client participe de manière implicite à la définition des exigences.
Le fournisseur inclut dans les exigences les attentes des clients.
L’intégration verticale a éclatée et entrent en jeu des sous-traitants dont la participation aux exigences est limitée.
On voit apparaître des conflits distributeur producteur
1946 l’ENIAC
La flexibilité fait son apparitionL’ensemble des caractéristiques s’enrichit d’un sous-ensemble d’options.
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
"Il est préférable de livrer en retard un produit qui fonctionne plutôt que de
livrer à temps un produit qui ne fonctionne pas…"
Valorisation de la "qualité" au niveau du management
Différence entre le "non fonctionnement" : – D'un produit matériel (voiture en panne)– D'une information ("non pertinence" des
données en fonction des usages… )
8
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les origines du concept de qualité
• Standards internationaux (ISO 9000, "total quality management", …) et certifications MAIS :– Beaucoup de généralités– Lourdeur et coût de mise en œuvre– Ponctualité de la certification : parfois, fin en soi (or, démarche
continue indispensable)– Biais liés aux enjeux commerciaux des certifications– Distinction entre production industrielle et production
d'information• Essai d'application du suivi de la production aux bases
de données (cfr "data tracking")• Application au logiciel : ISO 9001
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Définitions : plan
• Les origines du concept de qualité• La qualité des bases de données• Les bases de données administratives :
caractéristiques
9
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Bases de données et système d'information
Base de données : abstraction, "simplification" du réel observable s'inscrivant dans un système d'information
interprétationet formalisation du
domaine d’application->
"conceptual modelling"
traitementadministratif
diffusion par réseau
système ouvert système fermé= “photographie”
système ouvert
traitementstatistique
interprétationet exploitation
input 1output 1
input 2output 2
input noutput n
Base de données
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
SI
C2-1 Champ d’action la DSI et contribution à la chaîne de
valeurLa gestion d’un système éminemment complexe
dont les composants sont internes ou externes à l’Entreprise
Les responsabilités de la DSI
SI
KI10-21/03/2006-LCG
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
10
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C2-1 Champ d’action la DSI et contribution à la chaîne de
valeurLa gestion d’un système éminemment complexe:
dont les composants sont internes ou externes à l’Entreprise
qui interagit avec d’autres systèmes complexes et présente des facteurs de risques
SI
Les responsabilités de la DSI KI10-21/03/2006-LCG
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
La transformation de l’information : une problématique séculaire
?
E
A B C G
D F
v w
x z
Manuscrit originalperdu
Copies directes
Copies ultérieures
11
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Du “stemma codicum” au “data tracking”
?
E
A B C G
D F
v w
x z
base de données
processus 4
processus 3
processus 2
processus 1
Stemma codicum : "le Lai de l'ombre", poème français du 13ème siècle
"Data tracking", AT&T BellLaboratories, 1992
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
La qualité des bases de données
• Qualité d'une base de données : adéquation d'une base de données à ses objectifs ("fitness for use")
• Arbitrage coût/bénéfice : pas de "qualité totale" • Enjeux stratégiques lorsque l'information est un
instrument d'action sur le réel• Approche pluridisciplinaire (techniciens,
concepteurs, experts du domaine, …)• Varie avec les caractéristiques du domaine
d'application
12
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Définitions : plan
• Les origines du concept de qualité• La qualité des bases de données• Les bases de données administratives :
caractéristiques
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les bases de données administratives : caractéristiques
• L'administration : définition et fonctions
• Caractéristiques générales des bases de données administratives
• Deux types de systèmes d'information :– bases de données reposant sur un mode
déclaratif régulier– Répertoires, référentiels ou sources
authentiques
13
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
L'administration : définition et fonctions
• L'administration est constitutive de l'appareil d'Etat :– Prélèvement de contributions auprès des
citoyens pour le fonctionnement de l'Etat– Exécution de services au profit des
administrés– Production des règlements destinés à
adapter la loi aux exigences de la pratique quotidienne
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les bases de données administratives : caractéristiques
• L'administration : définition et fonctions• Caractéristiques générales des bases
de données administratives• Deux types de systèmes d'information :
– bases de données reposant sur un mode déclaratif régulier
– Répertoires, référentiels ou sources authentiques
14
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Caractéristiques générales des données administratives
• Souvent considérées, à tort, comme "simples" ! • Modifications législatives fréquentes et complexes !
gestion des versions et historique• Force probante des données• "Idéalement", pas de tolérance à l'erreur (traitement
équitable des dossiers des citoyens)• Volume de données et d'anomalies important• Incidences sociales et financières considérables
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les bases de données administratives : caractéristiques
• L'administration : définition et fonctions• Caractéristiques générales des bases de
données administratives• Deux types de systèmes d'information :
– bases de données reposant sur un mode déclaratif régulier
– Répertoires, référentiels ou sources authentiques
15
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Bases de données reposant sur un mode déclaratif régulier
(DMFA)• Objectif déclaratif et prélèvement régulier de
l'information : – l'information est régulièrement mise à jour– contacts réguliers avec la population "cible"
• Modifications de schémas fréquentes et complexes• Quelques chiffres (ordres de grandeur) :
– enregistrements saisis chaque trimestre : 4.000.000– anomalies formelles : plusieurs centaines de milliers par
trimestre– montants en jeu : 37 milliards d'euros
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Répertoires (KBO), référentiels ou sources authentiques
• Contacts irréguliers avec la population "cible" :– communication ponctuelle d'événements : fusion d'entreprises,
changement d'activité principale, d'adresse ...– information potentiellement plus obsolète (coût !)
• Pompe "aspirante-refoulante" (alimentation initiale : compromis entre besoins et sources disponibles)
• Peu de champs (l'exhaustivité des enregistrements prime sur la précision du schéma)
• Schéma plus stable
16
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Définitions• Symptômes de la "non qualité"• Coûts de la "non qualité"• Causes de la "non qualité"
Position du problème et enjeux
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Symptômes de la "non qualité"
• Plaintes des clients et préjudices (pertes financières, perte en crédibilité, procès, …)
• Ampleur des procédures de contrôle et de correction de l'information (concept "d'usine fantôme")
• Ampleur de la redondance dans les fichiers et les traitements
• Difficultés d'interprétation
17
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Problèmes de redondance et d'interprétation
“A man with a watch knows what time it is. A man with two is never sure.” M. Twain
7
34
58
9
1210
11 12
60
1020
30
4050
7
34
58
9
1210
11 12
60
1020
30
4050
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Définitions• Symptômes de la "non qualité"• Coûts de la "non qualité"• Causes de la "non qualité"
Position du problème et enjeux
18
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les coûts de la "non-qualité"
• Vérification et correction de l'information• Traitement des plaintes et procès• Réparation des préjudices éventuels• Difficultés lors de l'intégration de nouvelles
technologies• Crédibilité• Erreurs de stratégie
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les coûts de la "non qualité"• Selon une enquête aux USA (Redman, 1999) :
– Taux d'erreur moyen dans les bases de données : 5 à30 %
– Dans les enregistrements médicaux (hôpitaux) : jusqu'à 80% d'erreurs formelles !
• Coûts moyens (Redman, 1999) : – 15% du revenu des entreprises– 50% des coûts de la conception d'un
"datawarehouse"• 59,5 milliards de $ de perte annuelle nationale
aux USA (étude de 2002, citée dans Cinquin, 2006)
19
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Définitions• Symptômes de la "non qualité"• Coûts de la "non qualité"• Causes de la "non qualité"
Position du problème et enjeux
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les "causes" de la "non qualité"Un système d'information est un fleuve :
la mise en oeuvre exclusive de tests d’intégrité permetde nettoyer ponctuellement le fond du fleuve mais
n’endigue pas l’arrivée de nouveaux flux d’information de qualité douteuse.
(T. Redman)
20
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les "causes" de la "non qualité"
• Vision à "court terme"• Importance insuffisante accordée :
– Aux usages ("use it or lose it"), au contexte de l'information ("périmètre")
– A la documentation des données et des processus
• Séparation excessive entre la phase de conception d'une base de données et le suivi de sa qualité
• Concentration sur les nouvelles technologies et négligence des questions que posent les applications de gestion courante
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Position du problème et enjeux• Analyse : dimensions de la qualité des
données• Méthodes d'amélioration de la qualité• Conclusions
Data quality : best practices
21
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Analyse : les dimensions de la qualité des données
• Introduction• Qu'est-ce qu'une donnée ?• Qu'est-ce qu'une donnée correcte ?• Comment les données se construisent-
elles progressivement ? • Indicateurs de qualité
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les dimensions de la qualité des données : introduction
• Pas de qualité sans système d'évaluationhomogène :– Permettre des comparaisons dans le temps et de
l'espace– Suivre l'impact des décisions, les progrès éventuels,
…– Éviter les dérives ("data quality act")
• Quels indicateurs d'évaluation choisir ? S'interroger sur l'objet : données administratives
22
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C1-4 La mesure de la Qualité
Contrôles Rétroaction Gouvernance
Service perçu
Service attendu
mesure de la satisfaction
mesure de la satisfaction
Contrat de
service
Service réalisé
Service voulu
mesure de la conformité
mesure de la conformité
Univers du client Univers du fournisseur
Le système Client - FournisseurKI9-21/03/2006-LCG
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
C1-4 La mesure de la Qualité
Contrôles Rétroaction Gouvernance
Contrat de
service
Service perçu
Service attendu
mesure de la satisfaction
mesure de la satisfaction
Univers du client
Service réalisé
Service voulu
mesure de la conformité
mesure de la conformité
Univers du fournisseur
Le système Client - FournisseurKI9-21/03/2006-LCG
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
23
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Analyse : les dimensions de la qualité des données
• Introduction• Qu'est-ce qu'une donnée ?• Qu'est-ce qu'une donnée correcte ?• Comment les données se construisent-
elles progressivement ? • Indicateurs de qualité
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qu'est-ce qu'une donnée ?
• 3 composantes (triplet) :– un intitulé/concept : ex. salaire mensuel– un domaine de définition : ex. valeur
numérique incluse entre 1.000 € et 100.000 € – une valeur : ex. 3.000 €
Identifiant nom prénom salaire catégorie Tauxcotisation
Année, mois
date –update
lkm-pod Durant Jean 3.000 € chimie 0.23 % jan 1998 25/5/1998
24
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qu'est-ce qu'une donnée ?
• Quelques propriétés :– Interactions entre composantes– Données déterministes vs données empiriques :
• Les bases de données répertorient essentiellement des données empiriques ("concepts mobiles")
– "Closed World Assumption"Identifiant nom prénom salaire catégorie date –
update
lkm-pod Durant Jean 3.000 € chimie 0.23 % jan 1998 25/5/1998
Tauxcotisation
Année, mois
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Analyse : les dimensions de la qualité des données
• Introduction• Qu'est-ce qu'une donnée ?• Qu'est-ce qu'une donnée correcte ?• Comment les données se construisent-
elles progressivement ? • Indicateurs de qualité
25
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qu'est-ce qu'une donnée correcte ?
RW L IS L
représentation correcte
Légende (programme TDQM – MIT) :RWL : “lawful state space of a real-world system”ISL : “lawful state space of an information system representing the real world system”
RW L IS L
représentation ambiguë
RW L IS L
état non significatifRW L IS L
représentation incomplète
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qu'est-ce qu'une donnée correcte ?
Identifiant nom prénom catégorie taux-cotisation
km-pod Durant Jean banques de 0,27 %données
Catégorie taux-cotisation
conseil 0,28%informatique
traitement de 0,27%donnéesbanques de données 0,29%
Comment déceler une incohérence entreune donnée A (catégorie) et une donnée B (taux-cotisation) ?Et comment identifier avec certitude l’information “correcte”?
Employeur
Catégorie_taux
26
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Qu'est-ce qu'une donnée correcte ?
• Typologie des violations de contraintes d'intégrité : – Erreur formelle– Présomption formelle d'erreur (anomalie)
• A priori• A posteriori
– Erreur indétectable formellement• La catégorie "autres"
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les données ne sont pas données
?
On ne dispose d’aucun référentiel “absolu” en vue de tester la correction d’une vaste base de données empiriques
27
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Analyse : les dimensions de la qualité des données
• Introduction• Qu'est-ce qu'une donnée ?• Qu'est-ce qu'une donnée correcte ?• Comment les données se construisent-
elles progressivement ? • Indicateurs de qualité
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Comment l'information se construit-elle progressivement ?
...
Employeur E Trimestre T
600000 €500Effectif Montant à payerT1
Saisie de l'information consultation
T3 Saisie et test de nouvellesinformations 510000 €430
Validé
A vérifier141000 €(?)140 (?)
consultation
T4 Vérification manuelle
539000 €470Validé
A vérifier131000 €(?)100 (?)
consultation
T5Modification législativeà effet rétroactif 587000 €470
Validé
A vérifier151000 € (?)100 (?)
Tn
consultation
Contrôle automatique
A vérifier469000 €380
T2
de l'information
Validé
131000 €(?)120 (?)consultation
28
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Comment l'information se construit-elle progressivement ?
Année t
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+1
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+2
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+3
Effectiftrav.
Effectifempl.
Journéesde trav.
Les concepts empiriques sont "mobiles" : ils demeurent identiques à eux-mêmes
etleur signification est évolutive
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Comment l'information se construit-elle progressivement ?
Evolution du réel observable, objet de la norme et de la représentation informatique
Evolution des représentations administratives et informatiques
Evolution des normes (législation, théorie)
Année t
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+1
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+2
Effectiftrav.
Effectifempl.
Journéesde trav.
Année t+3
Effectiftrav.
Effectifempl.
Journéesde trav.
29
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Analyse : les dimensions de la qualité des données
• Introduction• Qu'est-ce qu'une donnée ?• Qu'est-ce qu'une donnée correcte ?• Comment les données se construisent-
elles progressivement ? • Indicateurs de qualité
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Indicateurs de qualité
• La "correction" ("accuracy") n'est pas un indicateur valable
• Les indicateurs de qualité sont nécessairement "latéraux"; certains sont quantifiables, d'autres pas
• Indicateur principal : pertinence des conceptset des processus (non quantifiable)– interaction entre besoins et sources disponibles– arbitrages de type coûts bénéfices! "Master data management"
30
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Indicateurs de qualité
• Autres indicateurs potentiellement importants : – Précision (schéma)– Usability (schéma)– Comparabilité, accessibilité, clarté (schéma) – Fraîcheur (extension)– Validité formelle des valeurs (extension)– Processus de traitement des anomalies (flux)– Ponctualité par rapport aux besoins (flux)
• Arbitrages entre indicateurs concurrents– Rapidité vs validité formelle vs coût– Exhaustivité vs précision
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Exemple d'arbitrage : la précision du modèle
Précision plus importanteavantages désavantages
plus grand détail
source de tests de cohérencesupplémentaires
champ d’application plus large
coût supplémentaire de collecte etde stockage des données
flexibilité moins importante des données
détails superflus et sources de confusion pour les utilisateurs
31
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Indicateurs de qualité : stratégie de mise en oeuvre
• Démarche descendante : – Cibler les besoins sur la base des objectifs (éviter une
multiplicité de chiffres)– Aller des concepts au calcul opérationnel – Définir plusieurs niveaux d’agrégation– Travail de synthèse, de clarification et d'interprétation
(méta-informations) – Industrialiser la production (méthode, organisation et
suivi continu)– Définir des stratégies d'amélioration
Source : P. Rivière, INSEE, 2005
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Indicateurs de qualité : exemple BCE
• Sujets d'intérêt principaux : • L'identifiant • Les variables
• Principe d'évaluation : • Exemple : "faux actifs" : taux d'unités non présentes à
l'adresse indiquée
• Méthode d'évaluation opératoire• Champ temporel et spatial• Variable d'intérêt (exemple :identifiant)• Domaine-cible : sous-populations concernées• Mode de calcul ou d'observation
Source : P. Rivière, INSEE, 2005
32
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Indicateurs de qualité : exemples de méthodes d'observation
• Enquête sur la base d'échantillons :– "one shot"– cher si récurrent (traitement des "non réponses")– crédibilité vis-à-vis de clients contactés plusieurs fois
si on respecte le principe de l'échantillonnage (problème de la base de sondage)
• Analyse de la cohérence interne (tools)– Au niveau des données (exemple : chiffre
d'affaire/effectif)– Au niveau temporel
• Comparaison avec une source concurrente (tools)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Communication:
Chaque objectif est converti en une note sur 10 par interpolation linéaire.
C3-2 Un cadre pour l’action
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
(trouverDes "invariants")
33
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
S uivi des ob jectifs
0,0
2,0
4,0
6,0
8,0
10,0A
B
C
D
EF
G
H
I
S uivi des ob jectifs
0,0
2,0
4,0
6,0
8,0
10,0A
B
C
D
EF
G
H
I
année de référenc e
S uivi des ob jectifs
0,0
2,0
4,0
6,0
8,0
10,0A
B
C
D
EF
G
H
I
O bjec tifs année de référence
S uivi des ob jectifs
0,0
2,0
4,0
6,0
8,0
10,0A
B
C
D
EF
G
H
I
Objec tifs rés ultats c ourants année de référenc e
Source = @ Henri Puissant Lutèce Consulting group
Source = @ Henri Puissant Lutèce Consulting group
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Position du problème et enjeux• Analyse : dimensions de la qualité des
données• Méthodes d'amélioration de la qualité• Conclusions
Data quality : best practices
34
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méthodes d'amélioration : cycle itératif
2. Analyse des besoins, cartographie des procédureset des données et définition des objectifs
1. Etablissement de responsabilités officiellesen termede management
3. Mise en oeuvre d’unsystème d'indicateurs de qualité (voir supra)
4. Identification des projetsd’amélioration de la qualité :-"Master Data Management"- Stratégies de gestion- Documentation et formation continue
5. Mise en oeuvre, évaluation desgains et maintien
des procédures d’amélioration (rôle)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méthodes d'amélioration : points clés
• Appui et suivi du management (cycle)• Mise en place de rôles ("data quality
stewardship") et d'un comité de suivi (groupes de travail pluridisciplinaires incluant les utilisateurs)
• Mise en œuvre de procédures dont les gains seront mesurables et continus : éviter les mesures ponctuelles prises dans l'urgence, les opérations "coup de poing"…
35
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méthodes d'amélioration : plan
• Examen et amélioration de l'architecture de base : "Master data management"
• Production d'informations en vue du déploiement ultérieur de stratégies de gestion de la base de données
• Le cas de l’information « semi-structurée »• Documentation du système d'information
et formations continues
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Examen et amélioration de l'architecture de base
• Introduction• Les concepts
– Identifiant unique– Codifications principales
• Les processus : quelques pistes– Identification des individus– Alimentation de la base (liens étroits avec stratégies de gestion)
36
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Architecture de base : introduction
• Approche globale : inventaire des intervenants, enjeux et besoins (concept de "royaume-émissaires")
• Relief : – Identification des concepts les plus importants,
(employeur, entreprise, travailleur …) : périmètre – Identification des événements pouvant les affecter :
processus – Examen des éléments organisationnels stratégiques– Identification des supports correspondants : bases de
données, documentation (cartographie)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Architecture de base : "Master Data Management"
• Analyse, représentation et gestion :– Des données, de leurs relations et règles– Des composants, processus et services– Des applications correspondantes
(applications transactionnelles, "reporting", …)
– Des liens entre sources internes et sources externes (données, services, applications)
– De l'évolution dans le temps de chacun de ces éléments
37
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Architecture de base : plan
• Introduction • Les concepts
– Identifiant unique– Codifications principales
• Les processus : quelques pistes– Identification des individus– Alimentation de la base (Liens étroits avec les stratégies de gestion)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les concepts : l'identifiant unique
• Référentiel de l'identifiant : le destinataire et non l'organisation interne
• Forme de l'identifiant : proscrire tout identifiant porteur d'information
• Test des champs associés (conversion des caractères spéciaux, …)
• Flux producteurs de l'identifiant
38
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Questions touchant l'identifiant unique
"incomplétude""sous-couverture"
…
"n-uplets""sur-couverture"
"faux actif""sur-couverture"
"Réel observable"Base de données
"lien théorique"
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Questions touchant l'identifiant unique
• Traitement des doublons ou n uplets– Détection préventive lors de la saisie
("warning")– Détection ex post (voir "tools")– Eléments organisationnels :
• règle homogène de sélection d'un numéro et des valeurs correspondantes
• feedback légal (auprès de l'instance concernée et au niveau des documents légaux)
39
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Examen des codifications principales
• Aspects sémantiques et fonctionnels : – adéquation aux actions visées– partitions sans omissions, ni doubles emplois– clarté du code, des procédures de saisie, des tables
de passage• Prise en compte de la dynamique des
codifications empiriques : adoption de compromis dans la conception des tables de passage
• Documentation des codes
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Contrôles et séquences de tests
Adresse de l'entreprise
Adresse des unitésd'établissement
Test 1présence
Test5
Indice d'interprétation
Possibilité de violation de contrainte d'intégrité en cascade
Test 2forme
Test 3AppartenanceAu fichier de référence
Test 4Lien avec L'entreprise
Point d'attention : lien avec stratégie de correction
40
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Architecture de base : plan
• Introduction • Les concepts
– Identifiant unique– Codifications principales
• Les processus : quelques pistes– Identification des individus– Alimentation de la base (Liens étroits avec les stratégies de gestion)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
décalages temporels entre sources (processus
asynchrones)P1
P2
réceptionformulairesformulaires complétés
assujettis
identificationassujettis
données identification
émission formulaires
41
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Suivi d'événements : processus asynchrones
Processus I : identification de la population assujettie
période de référence p :population
“réelle”
Manifestation progressive et toujours inachevée de la population “réelle” relative à la période p
Processus 2 :réception des informationsrelatives à la population
assujettie
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Suivi des décalages temporels entre bases de données
immatriculationMatricule_l catégorie_l adresse_l année_l trimestre_l mois_l jour_l
xzs_pml klm Mons 1997 1 janvier 5
employeurmatricule_E catégorie_E trimestre_E année_E adresse_E
xzs_pml klm 1 1997 Mons
SELECT I.matricule_IFROM Immatriculation IWHERE NOT EXIST (SELECT *
FROM EmployeurWHERE I.matricule_I=matricule_E)
Répertoire de référence (source authentique)
Base de données (mode "déclaratif régulier")
42
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Alimentation de la base : pistes complémentaires
• Workflow de procédure pour gérer les états transitoires (cas en cours de traitement ou de validation)
• Traitement des données structurées et des documents justificatifs : – formulaires électroniques – système des codes à barre associé au format
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
3. Méthodes d'amélioration
• Examen et amélioration de l'architecture de base "Master data management"
• Production d'informations en vue du déploiement de stratégies de gestion de la base de données
• Le cas de l’information « semi-structurée »• Documentation du système d'information
et formations continues
43
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Production d'informations en vue du déploiement de stratégies de
gestion• Prérequis• Suivi des anomalies et stratégie de
gestion• Data tracking et BPR• Les outils
– Aide à la décision : profiling, matching, monitoring, filtering
– Action directe sur la base de données
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les prérequis
• Indicateurs de qualité (différents niveaux d'agrégation : cfr supra)
• Nécessité d'un système de détection d'anomalies "ex ante" et "ex post"
• Des procédures (qui traite / quoi / quand / comment) doivent être mises en place
• Un historique des anomalies (par type) et de leurs corrections/validations est indispensable (voir exemple en annexes)
44
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Historique des anomalies et de leurs corrections
Représentation de l’historique d’instances hétérogènes
employeur suivi historique desétats
date_transact
num_vers
adresse
année trimestre
matricule catégorie code_anomalie code_anomalie_corr
code_attribut_rect
code_attribut_transf
code_attribut_intcode_attribut_comp
code_anomalie_val(0,1) (1,1)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Historique des anomalies et de leurs corrections
employeurnum_vers précédent suivant matricule catégorie trimestre année adresse date-transactlkm-1 lkm-2 xyz-56M 036 1 1997 05/02/1998lkm-2 lkm-1 xyz-56M 036 1 1997 Mons 10/05/1998dfm-1 dfm-2 xyz-96P 036 1 1997 Arlon 06/09/1998dfm-2 dfm-1 dfm-3 xyz-96P 035 1 1997 Arlon 10/09/1998dfm-3 dfm-2 xyz-96P 037 1 1997 Arlon 13/09/1998
anomalieid_trait num_vers code_attribut code_anomalie commentaire
05 lkm-1 xzsm 01 adresse absente02 lkm-1 spzo 53 catégorie incompatible avec la catégorie identifiée lors
de l’immatriculation
anomalie_corrid_trait num_vers code_attribut code_anomalie commentaire
05 lkm-2 xzsm 01 l’adresse absente est complétée
anomalie_valid_trait num_vers code_attribut code_anomalie commentaire
02 lkm-2 spzo 53 validation de la catégorie incompatible avec lacatégorie identifiée lors de l’immatriculation
45
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Historique des anomalies et de leurs corrections
attribut_rectid_trait num_vers code_attribut_rect commentaire
045 dfm-2 spzo rectification de la catégorie
attribut_intid_trait num_vers code_attribut_int commentaire
021 dfm-3 spzo interprétation et modification de la catégorie
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Exemples de requête
Suivi des anomalies sur l’ensemble des périodes de référence : par année, trimestre,code_attribut et code_anomalie, nombre d’anomalies décelées :
SELECT année, trimestre, code_attribut, code_anomalie, COUNT (*)FROM employeur, anomalieWHERE employeur.num_vers = anomalie.num_versGROUP BY année, trimestre, code_attribut, code_anomalie
Suivi des anomalies validées pour une seule période de référence : pour le premiertrimestre de l’année 1996, par code_attribut et code_anomalie, nombre d’anomaliesvalidées :
SELECT code_attribut, code_anomalie, COUNT (*)FROM employeur, anomalie_valWHERE trimestre = “1” AND année = “1996”AND employeur.num_vers = anomalie_val.num_versGROUP BY code_attribut, code_anomalie
46
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Production d'informations en vue du déploiement de stratégies de
gestion• Prérequis• Suivi des anomalies et stratégie de
gestion• Data tracking et BPR• Les outils
– Aide à la décision : profiling, matching, monitoring, filtering
– Action directe sur la base de données
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Suivi des anomalies et stratégies de gestion
• Evaluer le processus de décision auquel sont confrontés les gestionnaires de la base : – temps et nature des traitements– nombre de validations d’anomalies formelles par
donnée (anomalies formelles jugées valides au termede l’interprétation humaine)
• Adapter ponctuellement le schéma de la base en vue de diminuer le nombre d’anomaliesfictives à traiter
47
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Un exemple : nombre d’anomalies par donnée
Nombre total d’anomalies par déductions de cotisation (premiers trimestres 1990-1997)
année et trimestre
nom
bre
de v
iola
tions
de
cont
rain
te
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
1990/1 1991/1 1992/1 1993/1 1994/1 1995/1 1996/1 1997/1
Total des déductions
Maribel
Bas salaires
Maribel et Bas salaires
Source : base de données LATG et fichiers périphériques, traitements propres
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Résultat d'une adaptation du schéma
Evolution des anomalies “à vérifier” (déduction Bas salaires et Maribel, 1997)
évaluation Maribelévaluation Bas salaires
année et trimestreSource : base de données LATG et fichiers périphériques, traitements propres
nom
bre
d ‘ a
nom
alie
s
0
2000
4000
6000
8000
10000
12000
14000
1997/1 1997/2 1997/3 1997/4
évaluation Maribel
évaluation Bas salaires
48
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Bénéfices de l'opération
• traitement plus homogène et rapide de la base de données
• meilleure connaissance de la signification de l’information
• diminution de la charge de travail manuel
• traitement plus fiable des flux financiers et des avantages sociaux
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Généralisation à l'information empirique
49
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Autres indicateurs utiles et stratégies de gestion associées
• Nombre d'anomalies traitées (validées ou corrigées) et temps de stabilisation – déterminer le moment le plus opportun pour exploiter
la base• Identifier et traiter les plages qui ne seraient
jamais corrigées• Identifier et catégoriser les pics d'anomalies
– identification des causes (modifications législatives, lisibilité des instructions, …)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Production d'informations en vue du déploiement de stratégies de
gestion• Prérequis• Suivi des anomalies et stratégie de
gestion• Data tracking et BPR• Les outils
– Aide à la décision : profiling, matching, monitoring, filtering
– Action directe sur la base de données
50
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Le "data tracking" : étude du processus d'assemblage des
données
• Application des méthodes statistiques issues de l'industrie aux bases de données (AT&T Labs)
• Application spécifique en cours à la DmfA : "top 50 des employeurs commettant le plus d'anomalies prioritaires"
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Le "data tracking" : étude du processus d'assemblage des
données
processus1
processus4
processus3
processus2
base dedonnées A
base de données B
processus5
échantillonde l’input
1) assurer le suivides enregistrementsde l’échantillon2) comparer les données3) réaliser des graphesde contrôle
(T. Redman)
Problème : définir et éliminer les facteurs externes
51
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Exemple de suivi d'un enregistrement
(T. Redman)
Attribut a XYZ1 XYZ1 XYZ1 XYZ1-001 XYZ1-001
Attribut b Oui
Processus 1 Processus 2Base de
données AProcessus 3
Oui Non Non
Processus 4
Non
Attribut c K K K
Attribut d 1500 5100 5100 5100
Attribut e Z Z Z 1
Attribut f OK
Date entrée 01/03/89 02/03/89 20/03/89 04/04/89 04/04/89
Date sortie 01/04/89 10/03/89 01/04/89 25/04/89
Date prévue 9/03/89 30/03/89 25/04/89 01/04/89
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Typologie des changements par enregistement
(T. Redman)
nombre dechangementspar enregistrement
Numéro d'échantillon1 2 3 4 5 6
normalisationtraductionerreurs
52
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Diagramme de Pareto
10%
20%
30%
taux d’erreurs
attributsb e d a g c f
(T. Redman)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Taux d'erreurs formelles
processus1
processus4
processus3
processus2
base dedonnées A
5 % 2 % 19 % 5 %
(T. Redman)
53
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Cycle de transformation de l'information
processus1
processus4
processus3
processus2
base dedonnées A
temps incluant unevaleur ajoutéetemps d’attente
P2 achevé début P3 fin P3
date requise finalisation P3
retard (T. Redman)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Data tracking : opportunité
• méthode adaptée à : – la détection des erreurs formelles (erreurs
de programmation)
– la diminution des files d’attente dans les traitements
– l’analyse de collections de données dontl’évolution est stable et linéaire
54
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Application spécifique en cours à la DmfA
• "Top 50 des employeurs commettant le plus d'anomalies prioritaires"
• Particularités (Y. Bontemps)– Échantillon "non aléatoire" car connaissance a priori– "Tracking" arrière
• Diagnostic (variété des causes d'erreur) et actions correctrices
• Amélioration des processus et recommandations plus générales
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Reengineering des processus (BPR)
• objectifs :–diminution de la redondance et du
risque d'émergence d'erreurs formelles
–allègement du travail de test et de correction de l’information
• un exemple remarquable : le processus de facturation d’AT&T Laboratories
55
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Processus de facturation initial
(T. Redman)
réponse
facturesprévuesProcessus de
productiondes factures factures
Compagnie de téléphone (fournisseur) AT&T (client)
Processusd’octroi de
rabais
Processus de productiondes factures
correction ettraitementdes plaintes
identificationdes
incohérences
Processus de productiondes factures
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Processus de facturation après reengineering
spécificationsdes clients
factures
managementdes
fournisseurs
auditFeedback
processus1
processus2
processus3
Commandede service
d’accèsclient
Synthèsedes
résultats
Processus de management proactif
AT&T (client) Compagnie de téléphone (fournisseur) AT&T (client)
(T. Redman)
56
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les bénéfices du reengineering
• partenariat entre clients et fournisseurs de l’information et partage de la responsabilité
• baisse significative des coûts liés à la correction de l’information (gains en personnel et en matériel) et à la gestion des plaintes et litiges
• amélioration de la qualité de l’information (liée àla suppression de la redondance initiale)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Production d'informations en vue du déploiement de stratégies de
gestion• Prérequis • Suivi des anomalies et stratégie de
gestion• Data tracking et BPR• Les outils
– Aide à la décision : profiling, matching, monitoring, filtering
– Action directe sur la base de données: standardization, cleansing
57
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les outils• Aide à la décision :
– Data profiling– Data matching– Data monitoring– Data filtering
• Action directe sur la base de données : – Data standardization – Data cleansing
! Session "Data quality (part II) : tools" : Y. Bontemps
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méthodes d'amélioration
• Examen et amélioration de l'architecture de base "Master data management"
• Production d'informations en vue du déploiement ultérieur de stratégies de gestion de la base de données
• Le cas de l’information « semi-structurée »• Documentation du système d'information et
formations continues
58
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Le cas de l’information « semi-structurée »
• Langages documentaires et "boucles étranges"
• Les sources documentaires externes• Le traitement interne d'un système
documentaire
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Langages documentaires et "boucles étranges"
• La structure d'une notice bibliographique– Index– Dates– Lieux– Auteurs
• Autres cas
59
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Le cas de l’information « semi-structurée »
• Langages documentaires et "boucles étranges"
• Les sources documentaires externes• Le traitement interne d'un système
documentaire
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les sources documentaires externes (1)
• Ressources sur Internet : – Origine– Contenu et cadre– Références et liens– Date de mise à jour– Écriture– Éléments graphiques multimedia– Possibilités de recherche– Convivialité– Facilité d'accès– Coût
60
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Les sources documentaires externes (2)
• Serveurs de bases de données documentaires (Dialog, …) :
– volume et couverture;– fréquence de la mise à jour;– Qualité de l'indexation ("Chemical Abstract")– convivialité de l'accès et du langage d'interrogation;– complétude de la documentation;– Coût! Importance des enjeux ("Dun and Bradstreet")
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Le cas de l’information « semi-structurée »
• Langages documentaires et "boucles étranges"
• Les sources documentaires externes• Le traitement interne d'un système
documentaire
61
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Traitement interne d'un système documentaire
• Les indicateurs de suivi :– Acquisition : "fonds utile"– Analyse documentaire :
• Profondeur de l'indexation• Cohérence de l'analyse documentaire
– Recherche documentaire : • nombre et type d'utilisateurs;• nombre et type de demandes de recherches
documentaires;• nombre et type de recherches documentaires effectuées ;• nombre et type de profils (technologie "push");
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Taux de rappel et de précision
62
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Taux de rappel et de précision : recul critique
• Notion de pertinence• Notion de silence• Attention aux divisions par zéro !
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Traitement interne d'un système documentaire
• Méthodes d'amélioration (exemples)– Mesures en vue d'adapter le fonds utile– Améliorer la qualité de l'indexation :
• Formation• Redressements automatiques (en cas de sur-
indexation ou de sous-indexation)
• Prise en compte des facteurs temps et coût (rapports annuels)
• benchmarking
63
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méthodes d'amélioration
• Examen et amélioration de l'architecture de base "Master data management"
• Production d'informations en vue du déploiement ultérieur de stratégies de gestion de la base de données
• Le cas de l’information « semi-structurée »• Documentation du système
d'information et formations continues
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation et formations
• Utilité• Définition et arbitrages• Un exemple d'application pratique
64
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation et formations continues : utilité
• L'aspect documentaire s'inscrit dans l'une des trois fonctions de l'administration ("méta-informations")
• Trois niveaux interagissants : – Information juridique– Information administrative– Information technique
• l’information peut être interprétée distinctementen fonction des usages (exemple : la population active)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Interprétation en fonction des usages
• Usage administratif :– objectif : percevoir et redistribuer les cotisations– interprétation : précision des enregistrements individuels
• Usage à des fins de gestion interne et externe :– objectif : prise de décision (datawarehouse)– interprétation : précision des agrégats
• Usage économique– objectif : analyse macro-économique, prévisions– interprétation : “traduction” des concepts administratifs en
termes économiques (population active, entitéséconomiques)
65
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Interpréter des informations issues de sources hétérogènes
collecte transformation diffusion
Données archivées
collecte transformation diffusion
Base de données statistiques
collecte transformation diffusion
Base de données administratives A
collecte transformation diffusion
Base de données administratives B
Datawarehouse
collecte transformation diffusion???
Informations diffusées par réseau
collecte transformation diffusion
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation du système d'information
• Utilité• Définition et arbitrages• Un exemple d'application pratique
66
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation du système d'information : définition
• Méta-information (particule grecque "méta") : – "méta-physique" : "information sur l'information"– "métastase", … : notion de changement
• Plusieurs niveaux d'emploi de "méta" en informatique :– "méta-classe"– "méta-information" : schéma d'une base de données
et documentation afférente– "méta-langage" : formalisme de modélisation– …
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Méta-information : "information sur l'information"
II. Méta-donnéesSchéma conceptuel
I. Méta-classe
base de données
AVAL :sémantique du processusd’exploitation de labase de données
IIIa. Système de méta-informationau sens strict
Dictionnaire de données ,repository, librairie de schémas,
“métadatabase”, ...
IIIb. Système de méta-information au sens large
IV. Système “Méta” :représentation des méthodes de modélisation
AMONT :sémantique du do-maine d’application,systèmes de mesureet d’observation,processus deconstitution desdonnées, ...
67
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation du système d'information : arbitrages
• Paradoxes– Infinité des niveaux d'ordre "méta"– Décalages temporels entre données et méta-
données– Importance des ressources humaines
requises• NASA : "the metadata myth"• "Data tagging"• Bases de données temporelles, incertaines, …
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Documentation du système d'information
• Utilité• Définition, arbitrages et recommandations• Un exemple d'application pratique
68
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Un exemple dans le contexte de "l'e-governement"
• Glossaires de la sécurité sociale en production depuis 2001
• Fonctionnalités : – Workflow de validation– Gestion des versions– Structuration de champs multilingues (thesaurus
juridique)– Héritage et réutilisation (OO concept)– WOPM (Write Once Publish Many)– "Multibase search tool"
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Workflow de validation
69
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Gestion des versions (1)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Gestion des versions (2)
70
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Gestion des versions (3)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Héritage et réutilisation (1)
71
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Héritage et réutilisation (2)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Héritage et réutilisation (3)
72
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
"Write Once publish Many"
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
"Multibase Search Tool" (1)
73
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
"Multibase Search Tool" (2)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Recommandations• Privilégier :
– Les méta-données générées automatiquement à partir des programmes de contrôle ou de la base de données elle-même.
– Les méta-données accompagnant au plus près, lorsqu’elles doivent être mises à jour manuellement, les pratiques des gestionnaires et utilisateurs de la base de données (ressources à prévoir)
– Un système souple avec un minimum de méta-données obligatoires et des méta données flexibles (exemple du "dublin core" de l'OCLC, standard ISO)
74
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Dublin core» Author = Doyle Conan» Author (Scheme=USMARC) =100 1 Doyle, Author Conan $c Sir, $d 1859-
1930» Identifier (scheme=ISBN)=0-8230-2355-9» Identifier (scheme=URL)=http://www.oclc.org/metadata.html» Subject (Scheme=LCSH)=UNIX (Computer system)» Subject (scheme=Dewey Decimal System)=004.251 Supercomputers--
systems design» Subject=Metadata» Coverage (type=spatial)=The Atlantic Ocean» Coverage (type=temporal, scheme=ANSI X3.30-1985) ={Begin=19910101,
End=19930601}» Un ensemble minimal d'attributs indispensables (précédés de "*") a par
ailleurs été spécifié : » *Title*Creator
(Author)SubjectDescription*Publisher*ContributorsDate*Resource Type*FormatResource Identifier*Source*LanguageRelation (to other resources)Coverage (Spatial, temporal)Rights (copyright notice)
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Bénéfices d'un système de méta-information
• Documenter une base de données tout au long de son cycle de vie et en fonction des usages
• Gérer plus précisément les droits sociaux• Permettre une “réutilisation” plus aisée des
applications• Interpréter des données issues de sources
hétérogènes• Constituer une base à la mise en place de
formations
75
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
• Position du problème et enjeux• Analyse : dimensions de la qualité des
données• Méthodes d'amélioration de la qualité• Conclusions
Plan de l'exposé
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Quelques points-clés
• Qualité des données :– adéquation aux objectifs et usages– L'information parfaite n'existe pas– arbitrage "coût-bénéfice"– La "sur-qualité" est de la "non qualité"– Relief : privilégier les données et les
processus stratégiques– Indicateur crucial : "pertinence" des données
76
Université Libre de Bruxelles - Qualité de l’information et des documents numériquescomm B 530 (1) – partie méthodologique - Isabelle Boydens
Orientation bibliographique• Boydens I., Informatique, normes et temps. Bruxelles : Bruylant, 1999. • Boydens I., Les bases de données sont-elles solubles dans le temps? In La
Recherche hors série ("Ordre et désordre"). Hors série n° 9, novembre-décembre 2002, p. 32-34.
• Boydens I., Qualité de l'information et administration électronique : enjeux et perspectives. In ASSAR S. et BOUGHAZALA I., éds., Administrationélectronique. Constats et perspectives. Paris : Lavoisier - Hermès Sciences, 2007, p. 103-120 (chapitre 5).
• Bloch L. Système d'information : obstacles et succès. Paris : Vuibert, 2005.• Charlesworth I., Kellett A. et Thompson M., Data Quality and Integrity. Essential
Steps for Exploiting Business Information. Hull : Butler Group, decembre 2004.• Elmasri R. et Navathe S. B., Fundamentals of Database Systems, Addison
Wesley, 2003.• Moles A., Les sciences de l’imprécis. Paris : Seuil, 1995.• Redman T. C., Data Quality for the Information Age. Boston-London : Artech
House Publishers, 1996.• Redman T. C., Data Quality. The Field Guide. Boston : Digital Press, 2001.• Rivière P., Indicateurs de qualité en matière de production de données :
quelques éléments de réflexion , Courrier des statistiques, septembre 2005, n°115, p. 35-40.
• Ressources en ligne sur : http://www.ulb.ac.be/cours/iboydens/