Antidot Information Factory - AIF

4

Click here to load reader

description

Antidot Information Factory AIF - est une solution logicielle qui répond aux enjeux de crée un véritable « espace informationnel enrichi » au service des utilisateurs et des applications.

Transcript of Antidot Information Factory - AIF

Page 1: Antidot Information Factory - AIF

Pour mettre en synergie de façon agile vos différentes sources, il convient

de rendre vos données interopérables. Sans modifier l’existant, un outil

dédié doit agréger, normaliser, articuler et exposer les données de ces

sources. Dès lors, pour chaque nouveau besoin, les données seront déjà

disponibles, prêtes à être assemblées selon votre objectif.

Antidot Information Factory (AIF) est une solution logicielle conçue

spécialement pour répondre à ces enjeux de valorisation et d’exploitation des

données non structurées ou semi-structurées. Antidot Information Factory est

une « machine à produire de l’information » qui industrialise le traitement des

données existantes et la mise à disposition automatisée d’informations riches.

Antidot Information Factory permet de :

• capter les données contenues dans les différents silos internes ou externes à votre entreprise ;

• transformer ces données : nettoyage, normalisation, mise en format cible ;

• les enrichir en les catégorisant selon des plans de classement, en les annotant automatiquement et en les alignant avec des référentiels métier ;

• relier vos données afin de les mettre en synergie et faire émerger l’information pertinente pour votre métier ;

• publier cette information selon des protocoles standardisés afin de l’exposer aux applications de votre système d’information, à vos utilisateurs ou à vos partenaires.

AIF crée un véritable « espace informationnel enrichi » au service de vos

utilisateurs et de vos applications.

Une solution souple et modulaire

AIF s’utilise comme un jeu de

construction : pour créer des

chaînes de traitement, il suffit

d’assembler et de paramétrer

des modules prêts à l’emploi :

• modules de captation qui se connectent aux sources et récupèrent les données ciblées ;

• modules de normalisation et de nettoyage des données ;

• modules d’enrichissement pour la classification, l’annotation et la mise en relation.

Antidot Information Factory permet de créer des chaînes de traitement

faciles à maintenir : AIF propose un catalogue de plus de 50 modules stan-

dard. C’est également une plateforme ouverte et grâce à des interfaces

accessibles vous pouvez rapidement développer vos propres modules pour

réaliser des traitements spécifiques.

www.antidot.net

Êtes-vous sûr d’exploiter pleinement le potentiel informationnel de votre organisation ?

• Vos utilisateurs disposent de nombreuses

données et applications. Pourtant ils se

plaignent de leur difficulté à trouver la

bonne information.

• Pour satisfaire rapidement les demandes

fonctionnelles, vous devez créer des

applications métier agrégeant des données

éparses dans et hors de votre entreprise.

• L’évolution de votre écosystème nécessite

de partager avec vos partenaires via

Internet des données choisies (catalogues,

fiches produit, etc.).

• Le schéma directeur du système

d’information inclut une phase

d’urbanisation des données afin de

repousser les limites du SOA qui n’autorise

que les échanges applicatifs.

Aujourd’hui les données de votre organisation

sont enfermées dans des applications.

E-mail, CRM, ERP, GED-CMS, bases

relationnelles, serveurs de fichiers, sites

web, intranet… constituent autant de silos

par essence hétérogènes qui imposent

des structures et des méthodes d’accès

spécifiques.

Page 2: Antidot Information Factory - AIF

Antidot Information Factory

est une solution logicielle

industrielle et puissante

qui repose intégralement sur

des standards récents et

plébiscités : technologies XML (XSD, XSL, XPath,

XQuery) ; web services pour les

échanges ; technologies du web

sémantique (RDF, OWL, SPARQL) pour

la modélisation et le traitement.

Technologie

Antidot Information Factory est architecturé autour de 3 composants :

• Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement et qui fournit les fonctions essentielles : récupération et transmission des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de l’implémentation du stockage.

• L’ordonnanceur est le chef d’orchestre : il construit dynamiquement les chaînes de traitements déclarées, lance les instances de modules, pilote l’avancement des documents dans la chaîne. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs sur les traitements en cours.

• Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les chaînes de traitement.

Modélisation des unités documentaires

Une ressource documentaire est dans la plupart des cas composée de plusieurs éléments :

• Un « fichier bureautique » est une unité documentaire constituée du fichier lui-même, de ses droits d’accès et aussi de ses métadonnées : serveur et répertoire de stockage, propriétaire, auteur, date de création…

• Le document représentant une page Web peut comporter le code source HTML, les commentaires et les informations des réseaux sociaux (le « I like » de Facebook par exemple), les métadonnées extraites des balises RDFa, ou encore une vignette de la page.

La richesse du corpus et des documents ne s’arrête pas là :

• Les modules de traitement d’AIF génèrent des données supplémentaires qui complètent le document initial : sujets extraits, entités nommées, annotations sémantiques vers des référentiels, liens vers des documents similaires…

• Chaque document source peut exister en plusieurs versions et il est nécessaire de regrouper ces versions dans la même unité documentaire.

• De nouvelles unités documentaires peuvent être créées dynamiquement à partir de données source.

Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet

fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées

pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et la mise à disposition des unités documentaires.

En bout de chaîne, les

données enrichies ou

créées peuvent être

exposées / publiées de

plusieurs façons selon les

besoins :

•génération de fichiers ad hoc ;

• injection dans une base relationnelle ;

• injection dans un entrepôt RDF accessible via web service (SPARQL) ;

• exposition à travers le composant Antidot Content Repository qui fournit un service d’accès aux contenus.

Le moteur de recherche AFS peut aussi se connecter en sortie d’AIF,

pour offrir un service de

recherche performant et

riche sur l’ensemble des

informations.

Page 3: Antidot Information Factory - AIF

Antidot Information Factory propose en standard une

bibliothèque de plus de 50 modules prêts à l’emploi, pour créer

les chaînes de captation et de traitement :

• Connecteurs pour capter des données en mode pull – AIF

va chercher les données – ou en mode push – les données

sont envoyées à AIF – pour des traitements synchrones ou

asynchrones.

Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom),

accès aux bases de données (Oracle, SQLServer, Sybase,

MySQL, PostgreSL…), annuaires (LDAP, AD), serveurs de

fichiers, GED (par CMIS), solutions de publication Web (CMS),

entrepôts documentaires (OAI)…

•Filtres de traitement pour manipuler les données :

» gestion des archives pour la réception des données

groupées (zip, tar…)

» manipulation des données au format XML et des

données structurées : validation, transformation, fusion,

découpage, dédoublonnage…

» normalisation de champs : dates, noms, codes…

» alignement sur des référentiels métier

» classification automatique

» connexion à des produits de text mining tiers (Arisem,

Gate, Temis...)

» traitements linguistiques d’extraction de concepts ou

de mise en relation des documents

En effet, Antidot Information Factory ne se contente pas de travailler sur des

fichiers. Chaque document est un objet composite, constitué de plusieurs

couches (layers) qui représentent les différents aspects de ce document :

contenu, méta-données, vignette, signature sémantique…

De nouvelles couches peuvent être créées dynamiquement par des modules

réalisant des traitements spécifiques (ex.: extraction des entités nommées du

document).

Chaque couche intègre un système de gestion des révisions si bien qu’une

même vue du document peut exister en plusieurs versions, sans avoir à dupliquer

le document.

La création, la lecture, la suppression des unités documentaires et de couches ou de

versions sont des opérations rendues très simples grâce à des méthodes de haut niveau

fournies par le framework AIF qui permettent de masquer la complexité technique et de

se concentrer sur les besoins fonctionnels.

La complexité du stockage physique est prise en charge de façon centralisée,

garantissant des performances et une scalabilité optimales avec une administration

simplifiée.

Intégration à votre environnement

Conçue pour être exploité dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de

disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de

protection des données, de sécurité applicative et de montée en charge.

Page 4: Antidot Information Factory - AIF

Exemple d’application : Linked Data – Open data

Le Linked Data (web de données) décrit une méthode de publication des

données structurées de telle façon qu’elles puissent être liées entre elles et

ainsi devenir plus utiles. A l’instar du web qui relie des pages, le Linked Data

permet de lier des données au niveau le plus fin : ces liens sont comme des

jointures dans les bases relationnelles, mais ici à l’échelle du web qui devient

alors une immense base de données distribuée.

Le web de données utilise les normes du web sémantique qui ont été

développées par le W3C depuis plus de 10 ans : modélisation par OWL,

représentation des données en RDF, interrogation en SPARQL, échanges de

règles en RIF.

Antidot Information Factory intègre ces technologies de façon native ce qui

en fait l’outil idéal pour tout projet d’exposition et de partage des données,

que ce soit de façon publique sur le web, comme de façon privée au sein

de l’entreprise et avec ses partenaires. AIF permet en effet de sélectionner

les données à publier au sein des différentes sources, de les normaliser et

de les unifier, puis de les exposer dans un format adapté. Ainsi, plus besoin

de définir des flux et des API spécifiques, ni de concevoir des mécanismes

complexes à base de web services ad hoc ou d’échanges de fichiers

difficiles à suivre et à maintenir, car AIF intègre l’ensemble des composants

nécessaires à l’exposition des données.

De la même façon, AIF permet de récupérer des données externes et de

les intégrer dans le système d’information pour l’enrichir et créer une valeur

supplémentaire pour les utilisateurs. Par exemple, quelle puissance peut

apporter au système d’information l’ajout de données venant de Wikipédia

ou des statistiques de l’INSEE ? Le distributeur X vend N imperméables sur

Angoulême. Mais combien y a-t-il d’habitants à Angoulême ? Combien

de jours de pluie par an ? AIF permet d’intégrer aux applications toutes les

données nécessaires à la prise de décision.

L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise

à rendre accessibles les données sans mécanisme de sécurité ni de droit

afin de promouvoir leur réutilisation et d’encourager le développement

d’applications nouvelles. De par ses objectifs, l’Open Data a rencontré et

adopté les principes de Linked Data. À cet égard, AIF s’impose comme la

solution idéale pour les projets de Données Ouvertes.

Administration simple – Supervision en temps réel

Antidot Information Factory comprend une

console d’administration qui facilite son

utilisation : suivi du déroulement des chaînes de

traitement, contrôle de leur bonne exécution et

diagnostic d’éventuelles anomalies affectant

une source de données.

Une vue synthétique résume la situation des

flux de données en indiquant, pour chacun,

le nombre de documents traités avec succès

ou en échec, la vitesse moyenne, le volume

de données manipulées ainsi que la charge

système du serveur.

Des vues détaillées des traitements appliqués

à chaque flux montrent les résultats de l’action

de chaque filtre et la progression en temps réel

des documents dans la chaîne de traitement.

Contact

Direction commerciale

Tel : +33(0) 4 72 76 03 80

Fax : +33(0) 4 72 76 38 02

LYON

58 avenue Debourg 69007 Lyon

PARIS

22 rue du Sergent Bauchat 75012 Paris

Siège Social

29 avenue Jean Monnet 13410 Lambesc

Tel : +33 (0) 4 42 63 67 90

Fax : +33 (0) 4 42 28 61 03

www.antidot.net [email protected]