Présentation mnémotix mars 2014

21/03/2014

SCIC MNEMOTIX Société Coopérative en Ingénierie des Connaissances

Auteur : Mnémotix

1

Sommaire

1 Présentation de la SCIC Mnémotix .......................................................................... 2

1.1 Contexte et origine de la création de la SCIC ................................................... 2

1.2 Stratégie de développement et fonctionnement ............................................... 2

1.3 Le personnel ...................................................................................................... 4

2 Notre positionnement marché ................................................................................. 5

2.1 Contexte technologique : le web 3.0 et les technologies sémantiques ............. 5

2.2 Notre méthodologie : quand le lien fait sens .................................................... 6

2.2.1 Capter les traces d’activité en ligne .......................................................................................... 6

2.2.2 Capter les interactions communautaires ................................................................................. 7

2.2.3 Fusion des données et analyse ................................................................................................. 7

2.3 Nos cas d’usages marché ................................................................................... 8

2.3.1 Monitoring d’activité communautaire en ligne ....................................................................... 8

2.3.2 Enrichissement d’un service client ........................................................................................... 8

3 Fonctionnement de notre API : donner du sens à la donnée .................................. 9

3.1 Extraction - collecter et libérer les données ................................................... 10

3.2 Structuration - Sémantisation des données ................................................... 10

3.3 Analyses - Révéler les structures émergentes.................................................. 11

3.4 Publication - Mise en forme et accès aux résultats ......................................... 11

4 Bibliographie ........................................................................................................... 12

5 Annexes.................................................................................................................... 13

5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe ............................. 13

5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté

de chercheurs ............................................................................................................. 14

5.3 Couplage bookmarking social et extraction d’entités nommées : un tagging

sémantique ................................................................................................................. 15

5.4 Analyse concurrentielle ....................................................................................16

2

1 Présentation de la SCIC Mnémotix

1.1 Contexte et origine de la création de la SCIC Les associés fondateurs ont souhaité constituer une société pour permettre la pérennisation des

travaux de recherche réalisés dans le cadre du projet ISICIL de 2009 à 2012, financé par l’ANR (ANR

CONTINT 2008 - ANR-08-CORD-011-051).

Il est à noter que tout notre personnel a travaillé dans le projet ISICIL : Nicolas Delaforge a été chef de

projet en charge des développements du prototype de recherche ISICIL, Mylène Leitzelman a réalisé

l’analyse fonctionnelle et encadré les tests auprès des utilisateurs de l’ADEME, et Guillaume Erétéo a

effectué sa thèse sur l'analyse sémantique des réseaux sociaux.

MNEMOTIX propose par sa structure coopérative (Société Coopérative à Intérêts Collectifs) une forme

juridique permettant l'ajout progressif de partenaires académiques, territoriaux et/ou industriels en

tant que membres de la coopérative, favorisant ainsi la création de synergies et donnant un cadre

propice à l'émergence d'opportunités de fertilisations croisées entre les partenaires autour des

technologies du Web Sémantique (WS) et de l'ingénierie des connaissances (IC).

MNEMOTIX, suite à la présentation de son projet au comité INRIA-DTI de suivi des

actions de transfert technologique (CSATT), a obtenu un soutien officiel avec le label

«Startup INRIA», puis a été labélisée officiellement Jeune Entreprise Innovante

(24/09/2013).

1.2 Stratégie de développement et fonctionnement MNEMOTIX a pour vocation de devenir le référent et l'organe fédérateur des projets collaboratifs et

open-source autour des technologies WS et IC.

Actuellement, l'activité de la société se découpe en trois axes principaux :

une activité d'assistance à maîtrise d'ouvrage (AMO) pour accompagner des

entreprises dans l'intégration des technologies sémantiques au sein de leurs architectures

logicielles,

une activité de prestation de services et d'intégration de briques technologiques open-

source ou développées en interne dans le cadre de notre activité R&D ou de prestations de

services. Ces développements sont mutualisés dans un tronc commun logiciel, le Mnémokit,

dont le but est de faciliter la composition, à moindre coût pour les entreprises, de solutions

logicielles de type middleware pour l'intégration technique de services d'analyse à forte valeur

ajoutée dans les infrastructures de nos clients (cf. Figure 1).

une activité de service de veille et d'analyse de l'activité communautaire mise en

place pour les entreprises désireuses de bénéficier de la puissance des technologies WS et IC,

mais aussi de l'analyse des réseaux sociaux (SNA), dans leur veille stratégique ou dans le

monitoring de leurs communautés d'intérêts. Dans ce but, le développement de notre

première application, la plate-forme Webmarks pour le management collaboratif des

connaissances, a été financé en 2013, principalement sur fonds propres. Cette plate-forme doit

servir de support aux études et veilles commanditées par nos clients et permettre un suivi

temporel et un reporting en temps réel de l'évolution des corpus surveillés.

1 http://isicil.inria.fr

http://isicil.inria.fr/

3

Figure 1 Notre Framework Mnémokit : support de synergies

Proximité avec la recherche

MNEMOTIX intègre, dans les solutions pour ses clients, des briques logicielles open-source

directement issues des travaux de la recherche. Elle donne aux chercheurs des terrains

d’expérimentation, des retours d'usage très concrets et souvent quantifiables ainsi que des pistes

d'amélioration de leurs logiciels. De plus, MNEMOTIX contribue activement au code des briques

logicielles qui se révèlent stratégiques pour le fonctionnement de ses services. Grâce à cette approche,

nos clients bénéficient des dernières innovations technologiques, ce qui leur procure un avantage

concurrentiel non négligeable. Nous restons de ce fait à la pointe des technologies IC et WS et les

chercheurs disposent d'une structure qui leur permet de tester leurs prototypes en situation réelle.

Cette relation gagnant-gagnant s'est avérée fructueuse en 2013 et a vocation à s'étendre en même

temps que le volume d'activité de la coopérative. Actuellement, MNEMOTIX compte parmi ses

partenaires l’équipe WIMMICS de INRIA2, le laboratoire I3S3 du CNRS, le département COSTECH de

l’UTC4 ou encore le laboratoire Tech-CICO de l’UTT5.

Stratégie Open-Source

Dans le cadre de cette proximité avec la recherche, MNEMOTIX participe à certains projets open-

source de ses partenaires scientifiques. En particulier, nous contribuons activement au développement

de la librairie Corese/KGRAM6 portée par l'équipe WIMMICS. Depuis 2013, nous développons et

intégrons dans les solutions de nos clients, un SPARQL Endpoint7 basé sur Corese/KGRAM

permettant de publier une base de connaissances selon les standards du W3C.

2 http://wimmics.inria.fr/ 3 http://www.i3s.unice.fr/ 4 http://www.utc.fr/costech/ 5 http://techcico.utt.fr/ 6 https://wimmics.inria.fr/corese 7 http://www.w3.org/TR/sparql11-protocol/

http://wimmics.inria.fr/

http://www.i3s.unice.fr/

http://www.utc.fr/costech/

http://techcico.utt.fr/

https://wimmics.inria.fr/corese

http://www.w3.org/TR/sparql11-protocol/

http://www.w3.org/TR/sparql11-protocol/

4

1.3 Le personnel Nicolas Delaforge (Gérant co-fondateur - Directeur technique)

Nicolas Delaforge est ingénieur en génie informatique de Université de Technologie de Compiègne,

spécialiste des architectures web orientées service/RIA, doctorant CIFRE à l'INA de 2005 à 2008,

participant au projet d'archivage du Web français (Dépôt Légal du Web) sous la responsabilité de

Bruno Bachimont, ingénieur de recherche et chef de projet au sein de l’équipe Edelweiss à l’INRIA de

Sophia Antipolis dans le projet de recherche ISICIL financé par l'ANR de 2009 à 2012).

Durant ses années de recherche, ses travaux se sont portés notamment sur la modélisation

documentaire des contenus, sur la recherche d'information et sur les interfaces de recherche

d'orientation au sein des grands corpus documentaires. Depuis 2009, il s’intéresse plus précisément

aux rapprochements possibles entre sciences de la documentation et pratiques sociales de tagging et

de bookmarking. Dans cette optique, il poursuit sa thèse en co-tutelle UTC/INRIA sous la direction de

Fabien Gandon sur le sujet « Webmarks : contextualiser la référence à travers les dimensions du Web

» qui vise à proposer modèles et outils pour la contextualisation et la stabilisation de la référence en

ligne [Buffa, et al. 2013].

Nicolas Delaforge est aujourd’hui le Directeur technique de la société Mnémotix dont il

est le gérant, en charge de l’écosystème logiciel Mnémokit qui constitue le cœur

technologique de la coopérative.

Guillaume Erétéo (Salarié - Directeur R&D)

Docteur en informatique (Télécom Paristech) en 2011, Guillaume s’est spécialisé dans les technologies

du Web Sémantique, les réseaux sociaux, et la recherche d’information depuis 2006. Il a effectué sa

thèse, de 2008 à 2011, sur l’Analyse sémantique des réseaux sociaux8 sous la direction de Michel Buffa

et de Fabien Gandon dans le cadre du projet ISICIL. Il a notamment défini une méthode pour

modéliser des données sociales à base d’ontologies [Erétéo, et al. 2011] et réaliser une analyse du

réseau social qui tire partie de la sémantique de ces représentations (SemSNA). Ses travaux ont été

réinjectés et optimisés dans l’écosystème logiciel Mnémokit.

Guillaume Erétéo est en charge des aspects R&D et des briques consacrées à l'analyse

des réseaux sociaux et algorithmes de recommandation du Mnémokit.

Mylène Leitzelman (co-fondateur - Resp. Prospection, administratif et spécialiste veille)

Docteur en Sciences de l’Information et de la Communication auprès du CRRM obtenu en 1998 (Univ.

Aix-Marseille III), Mylène Leitzelman est ingénieur R&D sur contrats de recherche depuis plus de 10

ans (notamment avec l’Ademe, I3S/UNICE/Télécom‐Paristech dans le projet ISICIL). Au cours de ses

expériences, elle s’est spécialisée sur la constitution et l’animation de collectifs d’échange en ligne

(échange de données brutes, d’informations élaborées ou de connaissances) au moyen d’un ensemble

éprouvé de méthodologies et de pratiques (méthodes scientométriques et analyses des réseaux

sociaux), facilitant la mise en synergie de connaissances éparses afin de créer une intelligence

collective (création, transfert et actualisation des savoir, animation de communautés de pratique).

Mylène Leitzelman gère dans MNEMOTIX la partie administrative, les relations client,

la prospection et le montage de projets R&D. Son embauche est effective depuis janvier

2014.

8 http://tel.archives-ouvertes.fr/tel-00586677/fr/

http://crrm.u-3mrs.fr/web/

http://crrm.u-3mrs.fr/web/

http://tel.archives-ouvertes.fr/tel-00586677/fr/

5

2 Notre positionnement marché MNEMOTIX développe un écosystème logiciel basé sur les technologies du Web Sémantique et

l’Ingénierie des Connaissances afin de collecter, de structurer, d’analyser et de donner du sens aux

données Web et Intranet de communautés en ligne.

2.1 Contexte technologique : le web 3.0 et les technologies

sémantiques Les travaux de R&D et d’innovation de MNEMOTIX sont inscrits dans la continuité de l’évolution du

Web, actuellement qualifiée de Web 3.0 (cf. Figure 2).

Figure 2 Évolutions du web : du Web 1.0 au web 3.0

Le Web 1.0 est l’ère de la Diffusion (Web of Content)

Les producteurs Web diffusent des contenus vers les usagers, à la manière des média classiques,

communication uni-directionnelle (one to many). Il s'agit principalement de pages statiques

composées de textes et d'images reliées entre elles à l'aide d'hyperliens. Les premiers acteurs majeurs

de cette ère sont les moteurs de recherche généralistes comme Yahoo, Altavista, Voila ou Google pour

faciliter la recherche et l’accès à ces ressources.

Le Web 2.0 est l’ère de la Collaboration (Web of People)

L’avènement de nouvelles plate-formes telles que les wikis, les blogs et les réseaux sociaux permet aux

utilisateurs de contribuer au contenu du Web et d’en devenir des ressources à part entière. L’évolution

logique du Web est donc de massivement créer des liens entre des personnes (relations explicites,

interactions, affiliations) au point de bouleverser les modes de communication de nos sociétés.

Le Web 3.0 marque l’ère du Sémantique (Web of “linked” Data)

Dans la continuité du Web 2.0, de nouveaux types de ressources telles que des services, des lieux et des

objets ont désormais leur propre existence en ligne. Tout particulièrement, nous assistons à une

publication massive de données sur le Web. Ces données, à l’usage d’agents logiciels, ont

principalement pour buts (1) de décrire et d’interagir avec des objets ou des services en ligne (ex:

6

données de capteurs de pollution), (2) d’expliciter des ressources embarquées dans des pages web (ex :

coordonnées, carte de visite, avis) et des métadonnées descriptives (ex : titre, auteur, genre, etc.), ou

(3) tout simplement d’être à la disposition de services tiers qui proposent de nouveaux usages (ex :

carte augmentée avec des données encyclopédiques issues de Wikipedia). Dans ce contexte, à l’instar

des liens entre des pages web qui permettent à l’utilisateur de découvrir et de consulter de nouveaux

documents, les liens entre les données et les différentes ressources du Web permettent aux agents

logiciels de découvrir, d’agréger et d’exploiter toujours plus d’informations.

L’évolution exponentielle du Web n’est plus seulement liée à la contribution de ses utilisateurs

humains, mais surtout à la contribution d’agents logiciels qui le parcourent, consomment et en

valorisent les données. Ces agents sont mis en place par des services web soucieux de proposer des

agrégations et des mises en perspectives de données répondant aux besoins de leurs communautés

d’utilisateurs.

MNEMOTIX adresse, avec son API de valorisation de données, le marché des entreprises ayant besoin

de nouvelles sources de connaissances pour, d’une part, améliorer leur système d’information

interne et, d’autre part, ajouter de la valeur à leurs offres clients.

2.2 Notre méthodologie : quand le lien fait sens

2.2.1 Capter les traces d’activité en ligne L’API sémantique de Mnémotix

extrait à la demande les traces

laissées par un utilisateur

sur la plupart des plates-formes

populaires du Web pour en

déduire un profil sémantique.

L’API extrait aussi les

informations concernant une

entreprise à partir de

différentes sources en ligne

pour déduire également son

profil sémantique.

http://dbpedia.org/

7

2.2.2 Capter les interactions communautaires

Les interactions com-

munautaires au sein d’une

plate-forme métier peuvent

également être captées pour la

constitution d’un réseau

social.

2.2.3 Fusion des données et analyse

Une fois révélée l’empreinte sémantique individuelle, industrielle ou communautaire, les traces

numériques sont mises en résonance pour produire des représentations et des métriques pertinentes

dans une logique métier.

8

2.3 Nos cas d’usages marché Nous présentons nos deux principaux cas d’usage clients, déclinant l’utilisation de notre API, d’une

part en tant que solution de monitoring, veille et analyse de l'activité communautaire (en ligne sur le

Web, en intranet ou extranet), et d’autre part en tant que solution middleware d’intégration de services

d'analyse à forte valeur ajoutée dans les infrastructures des clients (Analytics as a Service - AaaS).

2.3.1 Monitoring d’activité communautaire en ligne Les intranets des entreprises reproduisent la plupart des succès du Web et les adaptent à leurs propres

processus. L’avènement de l’entreprise 2.0 a marqué l’introduction d’outils tels que les Wikis, les CMS

corporate et les Réseaux Sociaux d’Entreprises dans de nombreux intranets, afin de mettre en place

des documentations collaboratives et de nouveaux modes d’interactions. Suivant la tendance du Web

des données inter-reliées, les différentes sources de données internes commencent désormais à être

interconnectées et enrichies par des sources externes (en relation avec les réseaux sociaux type

Facebook, LinkedIn, Viadeo, ou Twitter). La réconciliation des données entre web interne et

web externe est plus que jamais primordiale pour ajouter de la valeur aux systèmes

d’informations et solutions collaboratives des intranets9.

Le cas d’usage du Pôle Mobilités de l’ADEME :

MNEMOTIX est soutenu par l’Ademe pour développer une instance de son API dédiée à l’animation

du collectif du pôle Mobilités Ademe/Sophia Antipolis.

Le pôle Mobilités traite des systèmes de transports pour les marchandises et de mobilités pour les

personnes. Ce pôle vise à développer des approches intégrées pour optimiser le fonctionnement de ces

systèmes complexes. Jusqu’à présent, le secteur des transports a essentiellement progressé par

l’amélioration des composants du système. Or, pour atteindre le facteur 410, améliorer la qualité de

l’air, réduire la dépendance au pétrole et la congestion, tout en limitant les dépenses publiques et

privées, ces progrès doivent maintenant être complétés par des améliorations systémiques. Il s’agit

pour l’Ademe de s’intéresser non seulement aux composants du système (véhicule, énergie,

infrastructure et information), aux usagers dans leur multitude, aux contextes et aux territoires, mais

également aux liens et interactions entre ces domaines et ces industries. Tous les acteurs sont

également à analyser dans leur dynamique d’adaptation aux changements, leur modèle d’affaire, leur

modèle d’innovation.

MNEMOTIX équipe aujourd’hui le pôle Mobilités d’une solution logicielle de collecte, d’analyse,

d’identification des personnes ou entités influentes et de cartographie des expertises et des innovations

nécessaires pour mener à bien sa mission (cf. Schéma fonctionnel du middleware MNEMOTIX pour

l’Ademe en Annexe).

2.3.2 Enrichissement d’un service client De nombreux sites communautaires (CMS, RSE, blogs) ne bénéficient pas toujours de fonctionnalités

d’analyse poussées, que l’on trouve dans des applications de Business Intelligence ou de solutions de

statistiques avancées. Nous proposons à nos clients l’intégration ou l’utilisation à façon de nos

algorithmes d’analyse et de visualisation dans le but d’enrichir en données leur propre système

d’information et de d’outiller l’animation de leurs communautés.

9 cf. la tendance montante en 2013 de mutualiser les ressources du web internet et du web externe : http://observatoire-intranet.com/insights/les-tendances-2013/ 10 http://fr.wikipedia.org/wiki/Facteur_4

9

Le cas d’usage pour monitorer une communauté de pratique d’experts scientifiques

Une société spécialisée dans l’animation de clusters de chercheurs a fait appel à l’expertise scientifique

et technique de MNEMOTIX pour optimiser les performances d’animation de réseau social de sa

plateforme communautaire. Nous proposons de mettre au point un algorithme de recommandation

social et sémantique se basant sur les données brutes extraites des activités sur la plateforme (CMS

classique), pour inférer ensuite le réseau social collaboratif et sémantique et appliquer au final une

métrique de similarité de profil pour recommander des personnes et des contenus (cf. Schéma

fonctionnel du middleware MNEMOTIX pour ce cas en Annexe).

3 Fonctionnement de notre API : donner du sens à la donnée Notre API est un middleware sémantique de gestion et d’extraction de connaissances, permettant

d’accomplir des taches de collecte, de structuration, d’analyse et de visualisation de données. Une des

premières instances de notre API, la plate-forme Webmarks, trouve notamment une application idéale

dans le management de communautés en ligne et de leurs membres, qu’il s’agit de cartographier,

structurer, animer et enrichir.

Figure 3 Vue globale du Processus de valorisation de données de l’API Mnémotix

La Figure 3 représente une vue globale du processus fonctionnel de l’API, qui se décompose en 4

grandes étapes, pouvant être appliquées indépendamment suivant le scénario d’usages de nos clients

(veille de médias sociaux, analyse du Web, enrichissement de données…) :

1) Dans de nombreux cas, nos clients ont besoin de décloisonner leurs sources de données. Le

Mnémokit propose différents connecteurs et outils pour importer des données à partir de

plusieurs types de sources telles que des documents Web, des bases de données métiers, les

réseaux sociaux ouverts (LinkedIn, Twitter, Facebook, etc.) ou d’autres services en ligne

possédant des API (cf. Dropbox, GoogleDrive, Delicious, Diigo, etc.).

2) Une fois ces données décloisonnées, nous les modélisons et les structurons

sémantiquement, avec des outils de conception de thésaurus et des algorithmes d’annotation

de texte.

3) Une étape d’analyse nous permet de découvrir de nouvelles connaissances à partir de

l’analyse structurelle des données. Nous nous basons à la fois sur des algorithmes d’analyse

10

des réseaux sociaux et de datamining dont nous augmentons la précision en exploitant la

sémantique de nos données.

4) Ce processus est enfin complété par des solutions de publication de données. Cette

publication peut se faire sous différentes formes, telles qu’une api d’accès aux données

structurées et aux résultats d’analyse, ou des mises en formes graphiques de ces données.

Nous détaillons dans cette section ce processus de valorisation des données, que nous implémentons

dans notre API de valorisation de données communautaires.

3.1 Extraction - collecter et libérer les données

L’objectif de cette étape est de collecter et de rassembler les

données utiles aux besoins de nos clients, les sources étant

internes ou externes. Les sources internes incluent

généralement des bases de données métiers, des solutions de

documentation interne, et des plate-formes de collaboration

type Réseaux Sociaux d’Entreprise ou CMS. Les sources externes

sont plutôt des pages Web, des publications scientifiques, des

réseaux sociaux (type Twitter, LinkedIn ou Viadéo) ou des

données ouvertes. Nous fournissons donc un ensemble de

connecteurs (et en développons des spécifiques si besoin), pour

collecter ces différentes sources de données.

Ensuite, dans la majorité des scénarios, ces données sont dans

des formats différents (ex: base de données relationnels, xml,

csv, json, texte, etc.). Il est donc essentiel de les convertir dans

un format pivot permettant de les représenter dans une

structure uniforme. Nous proposons de ce fait des solutions

permettant de convertir ces données dans les formats standards

du Web Sémantique définis par le W3C.

3.2 Structuration - Sémantisation des données

Cette étape consiste à représenter les données dans un modèle

uniforme et à les enrichir sémantiquement afin de pouvoir

raisonner dessus et découvrir de nouvelles connaissances. Pour

cela, nous nous basons toujours sur les technologies du Web

Sémantique, qui fournissent des langages de description

d’ontologies. Une ontologie décrit l’ensemble des concepts et

relations, avec leur logique d’application, permettant de

représenter un domaine de connaissances. L’exploitation de ces

ontologies nous permet plusieurs opportunités pour structurer

les données. Tout d’abord, nous les exploitons avec un moteur

sémantique afin de redresser des données incomplètes ou

inconsistantes, et d’inférer de nouvelles connaissances.

Ensuite, nous exploitons à la fois ces données enrichies et les

ontologies modélisées pour indexer et organiser les données

textuelles des documents et de certains champs de bases de

données. Par exemple, nous proposons un algorithme de

détection sémantique d’entités nommées permettant d’annoter

automatiquement (ou d’assister l’annotation manuelle) d’un

texte avec les concepts d’une ontologie (cf. Annexes Couplage

bookmarking social et extraction d’entités nommées : un tagging

11

sémantique).

3.3 Analyses - Révéler les structures émergentes

L’étape d’analyse permet de révéler les structures émergentes

contenues dans les données afin d’en améliorer leur exploitation

voire d’en proposer de nouveaux usages. Typiquement, nous

analysons les données d’activité d’un réseau social pour révéler

des acteurs influents et des positions stratégiques, détecter des

communautés thématiques, ou encore recommander des

contacts utiles.

Pour cela, nous nous basons sur un ensemble d’algorithmes

d’analyse de réseaux sociaux et de data mining dont nous

améliorons la précision en exploitant la sémantique des

ontologies utilisées pour décrire les données.L’analyse de

réseaux sociaux inclue notamment des algorithmes de détection

de communautés pour identifier la répartition des activités et

des acteurs, et des algorithmes de centralité pour détecter les

acteurs influents et les intermédiaires entre les communautés.

Les techniques de data mining contiennent en particulier des

algorithmes de recommandation que nous utilisons pour

découvrir des relations entre des concepts ou suggérer des mises

en relation pertinentes.

3.4 Publication - Mise en forme et accès aux résultats

Cette partie en bout de chaîne représente la synthèse des points

précédents dans le but d’outiller les utilisateurs finaux pour

manipuler et donner du sens aux données enrichies. Nous

proposons 3 types de mise à disposition des données enrichies et

des résultats d’analyse:

Des API d’accès permettant aux applications de nos clients

de les exploiter. Le scénario classique est une mise à

disposition des données au format linked data recommandé

par le W3C, avec ma possibilité d’adapter le format et le

protocole d’accès à la demande du client.

Des mises en formes graphiques pouvant être intégrées dans

des applications finales (type diagrammes, cartes

géographiques, ou encore graphes de réseaux sociaux). Nous

proposons en particulier de générer des codes javascript

pouvant être intégrés dans une application Web.

Enfin, nous proposons également la construction

d’applications finales, telles que des plate-formes de veille

collaborative, d’analyse de réseaux sociaux ou d’observatoire

avancé de contenus web (création d’états de l’art,

management d’open directories, observatoires thématiques,

etc...).

12

4 Bibliographie [Brandes et al 2009] Ulrik Brandes, Patrick Kenis, Jürgen Lerner, and Denise van Raaij. 2009.

Network analysis of collaboration structure in Wikipedia. In Proceedings of the 18th international

conference on World wide web (WWW '09). ACM, New York, NY, USA, 731-740.

[Buffa et al 2013] Michel Buffa, Nicolas Delaforge, Guillaume Erétéo, Fabien Gandon, Alain Giboin,

Freddy Limpens: ISICIL: Semantics and Social Networks for Business Intelligence. SOFSEM 2013: 67-

85

[Erétéo 2011] Guillaume Erétéo, Semantic Social Network Analysis, PhD Thesis Telecom ParisTech

Inria Orange Labs, April, 2011

[Erétéo, et al. 2011] Guillaume Erétéo, Michel Buffa, Olivier Corby, Fabien Gandon, Mylène

Leitzelman, Freddy Limpens, and Peter Sander. Handbook of Research on Methods and Techniques

for Studying Virtual Communities, chapter Semantic Social Network Analysis, a Concrete Case. 2011,

IGI Global.

[Kwak et al 2010] Kwak, H., Lee, C., Park, H., Moon, S.: What is Twitter, a Social Network or a News

Media? In Proceedings of the 19th World Wide Web Conference, Raleigh, USA. (2010)

[Liptchinsky et al 2013] Vitaliy Liptchinsky, Benjamin Satzger, Rostyslav Zabolotnyi, and Schahram

Dustdar. 2013. Expressive languages for selecting groups from graph-structured data. In Proceedings

of the 22nd international conference on World Wide Web (WWW '13). International World Wide Web

Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 761-770.

[Paolillo & Wright 2006] Paolillo, John, Wright, Elijah, Social Network Analysis on the Semantic Web:

Xml-based Internet and Information Visualization. IN: Geroimenko, Vladimir ed. Techniques and

Challenges for Visualizing FOAF. London, Springer,chapter 14,pp. 229-242

[San Martín & Gutierrez 2009] San Martín, M., Gutierrez, C., 2009. Representing, Querying and

Transforming Social Networks with RDF/SPARQL. In Antoniou, G., Grobelnik, M., Paslaru Bontas

Simperl, E., Parsia, B., Plexousakis, D., De Leenheer, P., Z. Pan, J. (Eds.), Proceedings of the 6th

European Semantic Web Conference on The Semantic Web: Research and Applications, ESWC 2009

Heraklion. Berlin, Heidelberg: Springer-Verlag, pp. 293–307.

[Scott 2000] Scott, J.: Social network analysis, a handbook. Deuxième edition, Edition Sage. (2000)

[Wasserman & Faust 1994] Wasserman, S., Faust, K.: Social Network Analysis: Methods and

Applications. Cambridge: Cambridge University Press. (1994)

13

5 Annexes

5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe

Figure 4 Schéma fonctionnel du middleware Mnémotix pour l’Ademe

Nous monitorons comme données entrantes le blog Transports du Futur, les flux RSS agrégés dans Netvibes, le profil Twitter @TdF__ademe et le groupe Linkedin Transports

du Futur. La partie veille collaborative de contenus web est réalisée avec le plugin de curation Webmarks (connecté à l’ontologie généraliste de l’environnement GEMET). Les

données Utilisateurs/Ressources web/Concepts-tags sont modélisées pour permettre un ensemble de traitement, d'analyse et de visualisation des données collectées.

http://transportsdufutur.typepad.fr/

http://www.netvibes.com/transportsdufutur

https://twitter.com/TdF__ademe

http://www.linkedin.com/groups/Transports-Futur-2695799

http://www.linkedin.com/groups/Transports-Futur-2695799

14

5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté de chercheurs

Figure 5 Schéma fonctionnel de l’intégration de services de Mnémotix dans la plateforme d’animation du cluster

Une fois réalisée l’ontologie des concepts clés du domaine métier de la communauté, à partir de l’extraction et l’analyse de documents de référence ainsi que traces d’activités

numériques laissées par ses membres, les champs d’intérêts individuels des utilisateurs seront analysés. Ces champs d’intérêts individuels permettront de calculer des

similarités entre les utilisateurs et de proposer, pour un utilisateur donné, les profils qui lui sont sémantiquement proches.

15

5.3 Couplage bookmarking social et extraction d’entités nommées :

un tagging sémantique

Figure 6 Editeur de Webmark, tagging sémantique et détection d'entités nommées

L’innovation technologique de MNEMOTIX en 2013 est d’avoir développé une nouvelle approche pour

la détection d’entités nommées basée sur les techniques recherche d’information (IR) qui peut

s’appliquer à tout contenu web et qui est potentiellement plus souple et plus performante, même si elle

est un peu moins précise. Elle demande plus de travail en amont pour optimiser la détection de mots-

clés, mais permet très facilement d’augmenter le thésaurus avec des concepts émergents. De plus, cette

approche fonctionne aussi sur les contenus où le NLP classique échoue.

Dans la figure 9, les entités nommées détectée sont réparties en 4 groupes : les concepts directement

détectés depuis le texte (étiquette 1), les lieux (étiquette 2), les personnes (pas de personne détecté

dans l'exemple) et les concepts inférés (étiquette 3).

Actuellement la plate-forme est en mesure de gérer 4 types de terminologies différentes :

Les thésaurus SKOS,

Les tags utilisateurs saisis manuellement ou importés,

Les lieux extraits de DBPedia ou de Geonames,

Les personnalités importées depuis les réseaux sociaux ou depuis DBPedia.

Toujours sur la figure 9, dans la partie éditeur (à gauche), les champs "tags" (étiquette A) et "location"

(étiquette B) correspondent très précisément aux entités nommées sélectionnées dans la partie droite.

Le datamining effectuée par la détection d’entités nommées facilite ainsi l’activité de tagging de la

ressource.

1

3

2

A

B

C

D

16

5.4 Analyse concurrentielle Nous avons fait une étude des entreprises concurrentes de Mnémotix qui se situent à la croisée d’un

marché celui de la veille / Intelligence compétitive et d’une famille technologique celle du Web

Sémantique.

Nous présentons ci-après la matrice de positionnement des concurrents par rapport à deux axes : un

axe positionnant sur le type de solution technologique vendue, à savoir si c’est sur l’exploitation d’une

API (essentiellement en back-end), ou la mise en place d’une solution plus ou moins packagée (avec un

interface utilisateur enrichie), un axe positionnant le type de marché, soit une présence sur une niche

de marché spécifique (type e-tourisme pour Syllabs ou biodiversité pour Natural Solutions), ou sur le

domaine entier de la veille.

Niches de marché Généraliste sur la veille

Positionnement Technologie

Positionnement

marché

Vente d’accès

à des

technologies

Vente de

solutions

(Saas ou

software)

Présentation mnémotix mars 2014

Documents

Transcript of Présentation mnémotix mars 2014