Présentation mnémotix mars 2014
-
Upload
les-transports-du-futur -
Category
Documents
-
view
822 -
download
2
Transcript of Présentation mnémotix mars 2014
21/03/2014
SCIC MNEMOTIX Société Coopérative en Ingénierie des Connaissances
Auteur : Mnémotix
1
Sommaire
1 Présentation de la SCIC Mnémotix .......................................................................... 2
1.1 Contexte et origine de la création de la SCIC ................................................... 2
1.2 Stratégie de développement et fonctionnement ............................................... 2
1.3 Le personnel ...................................................................................................... 4
2 Notre positionnement marché ................................................................................. 5
2.1 Contexte technologique : le web 3.0 et les technologies sémantiques ............. 5
2.2 Notre méthodologie : quand le lien fait sens .................................................... 6
2.2.1 Capter les traces d’activité en ligne .......................................................................................... 6
2.2.2 Capter les interactions communautaires ................................................................................. 7
2.2.3 Fusion des données et analyse ................................................................................................. 7
2.3 Nos cas d’usages marché ................................................................................... 8
2.3.1 Monitoring d’activité communautaire en ligne ....................................................................... 8
2.3.2 Enrichissement d’un service client ........................................................................................... 8
3 Fonctionnement de notre API : donner du sens à la donnée .................................. 9
3.1 Extraction - collecter et libérer les données ................................................... 10
3.2 Structuration - Sémantisation des données ................................................... 10
3.3 Analyses - Révéler les structures émergentes.................................................. 11
3.4 Publication - Mise en forme et accès aux résultats ......................................... 11
4 Bibliographie ........................................................................................................... 12
5 Annexes.................................................................................................................... 13
5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe ............................. 13
5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté
de chercheurs ............................................................................................................. 14
5.3 Couplage bookmarking social et extraction d’entités nommées : un tagging
sémantique ................................................................................................................. 15
5.4 Analyse concurrentielle ....................................................................................16
2
1 Présentation de la SCIC Mnémotix
1.1 Contexte et origine de la création de la SCIC Les associés fondateurs ont souhaité constituer une société pour permettre la pérennisation des
travaux de recherche réalisés dans le cadre du projet ISICIL de 2009 à 2012, financé par l’ANR (ANR
CONTINT 2008 - ANR-08-CORD-011-051).
Il est à noter que tout notre personnel a travaillé dans le projet ISICIL : Nicolas Delaforge a été chef de
projet en charge des développements du prototype de recherche ISICIL, Mylène Leitzelman a réalisé
l’analyse fonctionnelle et encadré les tests auprès des utilisateurs de l’ADEME, et Guillaume Erétéo a
effectué sa thèse sur l'analyse sémantique des réseaux sociaux.
MNEMOTIX propose par sa structure coopérative (Société Coopérative à Intérêts Collectifs) une forme
juridique permettant l'ajout progressif de partenaires académiques, territoriaux et/ou industriels en
tant que membres de la coopérative, favorisant ainsi la création de synergies et donnant un cadre
propice à l'émergence d'opportunités de fertilisations croisées entre les partenaires autour des
technologies du Web Sémantique (WS) et de l'ingénierie des connaissances (IC).
MNEMOTIX, suite à la présentation de son projet au comité INRIA-DTI de suivi des
actions de transfert technologique (CSATT), a obtenu un soutien officiel avec le label
«Startup INRIA», puis a été labélisée officiellement Jeune Entreprise Innovante
(24/09/2013).
1.2 Stratégie de développement et fonctionnement MNEMOTIX a pour vocation de devenir le référent et l'organe fédérateur des projets collaboratifs et
open-source autour des technologies WS et IC.
Actuellement, l'activité de la société se découpe en trois axes principaux :
une activité d'assistance à maîtrise d'ouvrage (AMO) pour accompagner des
entreprises dans l'intégration des technologies sémantiques au sein de leurs architectures
logicielles,
une activité de prestation de services et d'intégration de briques technologiques open-
source ou développées en interne dans le cadre de notre activité R&D ou de prestations de
services. Ces développements sont mutualisés dans un tronc commun logiciel, le Mnémokit,
dont le but est de faciliter la composition, à moindre coût pour les entreprises, de solutions
logicielles de type middleware pour l'intégration technique de services d'analyse à forte valeur
ajoutée dans les infrastructures de nos clients (cf. Figure 1).
une activité de service de veille et d'analyse de l'activité communautaire mise en
place pour les entreprises désireuses de bénéficier de la puissance des technologies WS et IC,
mais aussi de l'analyse des réseaux sociaux (SNA), dans leur veille stratégique ou dans le
monitoring de leurs communautés d'intérêts. Dans ce but, le développement de notre
première application, la plate-forme Webmarks pour le management collaboratif des
connaissances, a été financé en 2013, principalement sur fonds propres. Cette plate-forme doit
servir de support aux études et veilles commanditées par nos clients et permettre un suivi
temporel et un reporting en temps réel de l'évolution des corpus surveillés.
1 http://isicil.inria.fr
3
Figure 1 Notre Framework Mnémokit : support de synergies
Proximité avec la recherche
MNEMOTIX intègre, dans les solutions pour ses clients, des briques logicielles open-source
directement issues des travaux de la recherche. Elle donne aux chercheurs des terrains
d’expérimentation, des retours d'usage très concrets et souvent quantifiables ainsi que des pistes
d'amélioration de leurs logiciels. De plus, MNEMOTIX contribue activement au code des briques
logicielles qui se révèlent stratégiques pour le fonctionnement de ses services. Grâce à cette approche,
nos clients bénéficient des dernières innovations technologiques, ce qui leur procure un avantage
concurrentiel non négligeable. Nous restons de ce fait à la pointe des technologies IC et WS et les
chercheurs disposent d'une structure qui leur permet de tester leurs prototypes en situation réelle.
Cette relation gagnant-gagnant s'est avérée fructueuse en 2013 et a vocation à s'étendre en même
temps que le volume d'activité de la coopérative. Actuellement, MNEMOTIX compte parmi ses
partenaires l’équipe WIMMICS de INRIA2, le laboratoire I3S3 du CNRS, le département COSTECH de
l’UTC4 ou encore le laboratoire Tech-CICO de l’UTT5.
Stratégie Open-Source
Dans le cadre de cette proximité avec la recherche, MNEMOTIX participe à certains projets open-
source de ses partenaires scientifiques. En particulier, nous contribuons activement au développement
de la librairie Corese/KGRAM6 portée par l'équipe WIMMICS. Depuis 2013, nous développons et
intégrons dans les solutions de nos clients, un SPARQL Endpoint7 basé sur Corese/KGRAM
permettant de publier une base de connaissances selon les standards du W3C.
2 http://wimmics.inria.fr/ 3 http://www.i3s.unice.fr/ 4 http://www.utc.fr/costech/ 5 http://techcico.utt.fr/ 6 https://wimmics.inria.fr/corese 7 http://www.w3.org/TR/sparql11-protocol/
4
1.3 Le personnel Nicolas Delaforge (Gérant co-fondateur - Directeur technique)
Nicolas Delaforge est ingénieur en génie informatique de Université de Technologie de Compiègne,
spécialiste des architectures web orientées service/RIA, doctorant CIFRE à l'INA de 2005 à 2008,
participant au projet d'archivage du Web français (Dépôt Légal du Web) sous la responsabilité de
Bruno Bachimont, ingénieur de recherche et chef de projet au sein de l’équipe Edelweiss à l’INRIA de
Sophia Antipolis dans le projet de recherche ISICIL financé par l'ANR de 2009 à 2012).
Durant ses années de recherche, ses travaux se sont portés notamment sur la modélisation
documentaire des contenus, sur la recherche d'information et sur les interfaces de recherche
d'orientation au sein des grands corpus documentaires. Depuis 2009, il s’intéresse plus précisément
aux rapprochements possibles entre sciences de la documentation et pratiques sociales de tagging et
de bookmarking. Dans cette optique, il poursuit sa thèse en co-tutelle UTC/INRIA sous la direction de
Fabien Gandon sur le sujet « Webmarks : contextualiser la référence à travers les dimensions du Web
» qui vise à proposer modèles et outils pour la contextualisation et la stabilisation de la référence en
ligne [Buffa, et al. 2013].
Nicolas Delaforge est aujourd’hui le Directeur technique de la société Mnémotix dont il
est le gérant, en charge de l’écosystème logiciel Mnémokit qui constitue le cœur
technologique de la coopérative.
Guillaume Erétéo (Salarié - Directeur R&D)
Docteur en informatique (Télécom Paristech) en 2011, Guillaume s’est spécialisé dans les technologies
du Web Sémantique, les réseaux sociaux, et la recherche d’information depuis 2006. Il a effectué sa
thèse, de 2008 à 2011, sur l’Analyse sémantique des réseaux sociaux8 sous la direction de Michel Buffa
et de Fabien Gandon dans le cadre du projet ISICIL. Il a notamment défini une méthode pour
modéliser des données sociales à base d’ontologies [Erétéo, et al. 2011] et réaliser une analyse du
réseau social qui tire partie de la sémantique de ces représentations (SemSNA). Ses travaux ont été
réinjectés et optimisés dans l’écosystème logiciel Mnémokit.
Guillaume Erétéo est en charge des aspects R&D et des briques consacrées à l'analyse
des réseaux sociaux et algorithmes de recommandation du Mnémokit.
Mylène Leitzelman (co-fondateur - Resp. Prospection, administratif et spécialiste veille)
Docteur en Sciences de l’Information et de la Communication auprès du CRRM obtenu en 1998 (Univ.
Aix-Marseille III), Mylène Leitzelman est ingénieur R&D sur contrats de recherche depuis plus de 10
ans (notamment avec l’Ademe, I3S/UNICE/Télécom‐Paristech dans le projet ISICIL). Au cours de ses
expériences, elle s’est spécialisée sur la constitution et l’animation de collectifs d’échange en ligne
(échange de données brutes, d’informations élaborées ou de connaissances) au moyen d’un ensemble
éprouvé de méthodologies et de pratiques (méthodes scientométriques et analyses des réseaux
sociaux), facilitant la mise en synergie de connaissances éparses afin de créer une intelligence
collective (création, transfert et actualisation des savoir, animation de communautés de pratique).
Mylène Leitzelman gère dans MNEMOTIX la partie administrative, les relations client,
la prospection et le montage de projets R&D. Son embauche est effective depuis janvier
2014.
8 http://tel.archives-ouvertes.fr/tel-00586677/fr/
5
2 Notre positionnement marché MNEMOTIX développe un écosystème logiciel basé sur les technologies du Web Sémantique et
l’Ingénierie des Connaissances afin de collecter, de structurer, d’analyser et de donner du sens aux
données Web et Intranet de communautés en ligne.
2.1 Contexte technologique : le web 3.0 et les technologies
sémantiques Les travaux de R&D et d’innovation de MNEMOTIX sont inscrits dans la continuité de l’évolution du
Web, actuellement qualifiée de Web 3.0 (cf. Figure 2).
Figure 2 Évolutions du web : du Web 1.0 au web 3.0
Le Web 1.0 est l’ère de la Diffusion (Web of Content)
Les producteurs Web diffusent des contenus vers les usagers, à la manière des média classiques,
communication uni-directionnelle (one to many). Il s'agit principalement de pages statiques
composées de textes et d'images reliées entre elles à l'aide d'hyperliens. Les premiers acteurs majeurs
de cette ère sont les moteurs de recherche généralistes comme Yahoo, Altavista, Voila ou Google pour
faciliter la recherche et l’accès à ces ressources.
Le Web 2.0 est l’ère de la Collaboration (Web of People)
L’avènement de nouvelles plate-formes telles que les wikis, les blogs et les réseaux sociaux permet aux
utilisateurs de contribuer au contenu du Web et d’en devenir des ressources à part entière. L’évolution
logique du Web est donc de massivement créer des liens entre des personnes (relations explicites,
interactions, affiliations) au point de bouleverser les modes de communication de nos sociétés.
Le Web 3.0 marque l’ère du Sémantique (Web of “linked” Data)
Dans la continuité du Web 2.0, de nouveaux types de ressources telles que des services, des lieux et des
objets ont désormais leur propre existence en ligne. Tout particulièrement, nous assistons à une
publication massive de données sur le Web. Ces données, à l’usage d’agents logiciels, ont
principalement pour buts (1) de décrire et d’interagir avec des objets ou des services en ligne (ex:
6
données de capteurs de pollution), (2) d’expliciter des ressources embarquées dans des pages web (ex :
coordonnées, carte de visite, avis) et des métadonnées descriptives (ex : titre, auteur, genre, etc.), ou
(3) tout simplement d’être à la disposition de services tiers qui proposent de nouveaux usages (ex :
carte augmentée avec des données encyclopédiques issues de Wikipedia). Dans ce contexte, à l’instar
des liens entre des pages web qui permettent à l’utilisateur de découvrir et de consulter de nouveaux
documents, les liens entre les données et les différentes ressources du Web permettent aux agents
logiciels de découvrir, d’agréger et d’exploiter toujours plus d’informations.
L’évolution exponentielle du Web n’est plus seulement liée à la contribution de ses utilisateurs
humains, mais surtout à la contribution d’agents logiciels qui le parcourent, consomment et en
valorisent les données. Ces agents sont mis en place par des services web soucieux de proposer des
agrégations et des mises en perspectives de données répondant aux besoins de leurs communautés
d’utilisateurs.
MNEMOTIX adresse, avec son API de valorisation de données, le marché des entreprises ayant besoin
de nouvelles sources de connaissances pour, d’une part, améliorer leur système d’information
interne et, d’autre part, ajouter de la valeur à leurs offres clients.
2.2 Notre méthodologie : quand le lien fait sens
2.2.1 Capter les traces d’activité en ligne L’API sémantique de Mnémotix
extrait à la demande les traces
laissées par un utilisateur
sur la plupart des plates-formes
populaires du Web pour en
déduire un profil sémantique.
L’API extrait aussi les
informations concernant une
entreprise à partir de
différentes sources en ligne
pour déduire également son
profil sémantique.
7
2.2.2 Capter les interactions communautaires
Les interactions com-
munautaires au sein d’une
plate-forme métier peuvent
également être captées pour la
constitution d’un réseau
social.
2.2.3 Fusion des données et analyse
Une fois révélée l’empreinte sémantique individuelle, industrielle ou communautaire, les traces
numériques sont mises en résonance pour produire des représentations et des métriques pertinentes
dans une logique métier.
8
2.3 Nos cas d’usages marché Nous présentons nos deux principaux cas d’usage clients, déclinant l’utilisation de notre API, d’une
part en tant que solution de monitoring, veille et analyse de l'activité communautaire (en ligne sur le
Web, en intranet ou extranet), et d’autre part en tant que solution middleware d’intégration de services
d'analyse à forte valeur ajoutée dans les infrastructures des clients (Analytics as a Service - AaaS).
2.3.1 Monitoring d’activité communautaire en ligne Les intranets des entreprises reproduisent la plupart des succès du Web et les adaptent à leurs propres
processus. L’avènement de l’entreprise 2.0 a marqué l’introduction d’outils tels que les Wikis, les CMS
corporate et les Réseaux Sociaux d’Entreprises dans de nombreux intranets, afin de mettre en place
des documentations collaboratives et de nouveaux modes d’interactions. Suivant la tendance du Web
des données inter-reliées, les différentes sources de données internes commencent désormais à être
interconnectées et enrichies par des sources externes (en relation avec les réseaux sociaux type
Facebook, LinkedIn, Viadeo, ou Twitter). La réconciliation des données entre web interne et
web externe est plus que jamais primordiale pour ajouter de la valeur aux systèmes
d’informations et solutions collaboratives des intranets9.
Le cas d’usage du Pôle Mobilités de l’ADEME :
MNEMOTIX est soutenu par l’Ademe pour développer une instance de son API dédiée à l’animation
du collectif du pôle Mobilités Ademe/Sophia Antipolis.
Le pôle Mobilités traite des systèmes de transports pour les marchandises et de mobilités pour les
personnes. Ce pôle vise à développer des approches intégrées pour optimiser le fonctionnement de ces
systèmes complexes. Jusqu’à présent, le secteur des transports a essentiellement progressé par
l’amélioration des composants du système. Or, pour atteindre le facteur 410, améliorer la qualité de
l’air, réduire la dépendance au pétrole et la congestion, tout en limitant les dépenses publiques et
privées, ces progrès doivent maintenant être complétés par des améliorations systémiques. Il s’agit
pour l’Ademe de s’intéresser non seulement aux composants du système (véhicule, énergie,
infrastructure et information), aux usagers dans leur multitude, aux contextes et aux territoires, mais
également aux liens et interactions entre ces domaines et ces industries. Tous les acteurs sont
également à analyser dans leur dynamique d’adaptation aux changements, leur modèle d’affaire, leur
modèle d’innovation.
MNEMOTIX équipe aujourd’hui le pôle Mobilités d’une solution logicielle de collecte, d’analyse,
d’identification des personnes ou entités influentes et de cartographie des expertises et des innovations
nécessaires pour mener à bien sa mission (cf. Schéma fonctionnel du middleware MNEMOTIX pour
l’Ademe en Annexe).
2.3.2 Enrichissement d’un service client De nombreux sites communautaires (CMS, RSE, blogs) ne bénéficient pas toujours de fonctionnalités
d’analyse poussées, que l’on trouve dans des applications de Business Intelligence ou de solutions de
statistiques avancées. Nous proposons à nos clients l’intégration ou l’utilisation à façon de nos
algorithmes d’analyse et de visualisation dans le but d’enrichir en données leur propre système
d’information et de d’outiller l’animation de leurs communautés.
9 cf. la tendance montante en 2013 de mutualiser les ressources du web internet et du web externe : http://observatoire-intranet.com/insights/les-tendances-2013/ 10 http://fr.wikipedia.org/wiki/Facteur_4
9
Le cas d’usage pour monitorer une communauté de pratique d’experts scientifiques
Une société spécialisée dans l’animation de clusters de chercheurs a fait appel à l’expertise scientifique
et technique de MNEMOTIX pour optimiser les performances d’animation de réseau social de sa
plateforme communautaire. Nous proposons de mettre au point un algorithme de recommandation
social et sémantique se basant sur les données brutes extraites des activités sur la plateforme (CMS
classique), pour inférer ensuite le réseau social collaboratif et sémantique et appliquer au final une
métrique de similarité de profil pour recommander des personnes et des contenus (cf. Schéma
fonctionnel du middleware MNEMOTIX pour ce cas en Annexe).
3 Fonctionnement de notre API : donner du sens à la donnée Notre API est un middleware sémantique de gestion et d’extraction de connaissances, permettant
d’accomplir des taches de collecte, de structuration, d’analyse et de visualisation de données. Une des
premières instances de notre API, la plate-forme Webmarks, trouve notamment une application idéale
dans le management de communautés en ligne et de leurs membres, qu’il s’agit de cartographier,
structurer, animer et enrichir.
Figure 3 Vue globale du Processus de valorisation de données de l’API Mnémotix
La Figure 3 représente une vue globale du processus fonctionnel de l’API, qui se décompose en 4
grandes étapes, pouvant être appliquées indépendamment suivant le scénario d’usages de nos clients
(veille de médias sociaux, analyse du Web, enrichissement de données…) :
1) Dans de nombreux cas, nos clients ont besoin de décloisonner leurs sources de données. Le
Mnémokit propose différents connecteurs et outils pour importer des données à partir de
plusieurs types de sources telles que des documents Web, des bases de données métiers, les
réseaux sociaux ouverts (LinkedIn, Twitter, Facebook, etc.) ou d’autres services en ligne
possédant des API (cf. Dropbox, GoogleDrive, Delicious, Diigo, etc.).
2) Une fois ces données décloisonnées, nous les modélisons et les structurons
sémantiquement, avec des outils de conception de thésaurus et des algorithmes d’annotation
de texte.
3) Une étape d’analyse nous permet de découvrir de nouvelles connaissances à partir de
l’analyse structurelle des données. Nous nous basons à la fois sur des algorithmes d’analyse
10
des réseaux sociaux et de datamining dont nous augmentons la précision en exploitant la
sémantique de nos données.
4) Ce processus est enfin complété par des solutions de publication de données. Cette
publication peut se faire sous différentes formes, telles qu’une api d’accès aux données
structurées et aux résultats d’analyse, ou des mises en formes graphiques de ces données.
Nous détaillons dans cette section ce processus de valorisation des données, que nous implémentons
dans notre API de valorisation de données communautaires.
3.1 Extraction - collecter et libérer les données
L’objectif de cette étape est de collecter et de rassembler les
données utiles aux besoins de nos clients, les sources étant
internes ou externes. Les sources internes incluent
généralement des bases de données métiers, des solutions de
documentation interne, et des plate-formes de collaboration
type Réseaux Sociaux d’Entreprise ou CMS. Les sources externes
sont plutôt des pages Web, des publications scientifiques, des
réseaux sociaux (type Twitter, LinkedIn ou Viadéo) ou des
données ouvertes. Nous fournissons donc un ensemble de
connecteurs (et en développons des spécifiques si besoin), pour
collecter ces différentes sources de données.
Ensuite, dans la majorité des scénarios, ces données sont dans
des formats différents (ex: base de données relationnels, xml,
csv, json, texte, etc.). Il est donc essentiel de les convertir dans
un format pivot permettant de les représenter dans une
structure uniforme. Nous proposons de ce fait des solutions
permettant de convertir ces données dans les formats standards
du Web Sémantique définis par le W3C.
3.2 Structuration - Sémantisation des données
Cette étape consiste à représenter les données dans un modèle
uniforme et à les enrichir sémantiquement afin de pouvoir
raisonner dessus et découvrir de nouvelles connaissances. Pour
cela, nous nous basons toujours sur les technologies du Web
Sémantique, qui fournissent des langages de description
d’ontologies. Une ontologie décrit l’ensemble des concepts et
relations, avec leur logique d’application, permettant de
représenter un domaine de connaissances. L’exploitation de ces
ontologies nous permet plusieurs opportunités pour structurer
les données. Tout d’abord, nous les exploitons avec un moteur
sémantique afin de redresser des données incomplètes ou
inconsistantes, et d’inférer de nouvelles connaissances.
Ensuite, nous exploitons à la fois ces données enrichies et les
ontologies modélisées pour indexer et organiser les données
textuelles des documents et de certains champs de bases de
données. Par exemple, nous proposons un algorithme de
détection sémantique d’entités nommées permettant d’annoter
automatiquement (ou d’assister l’annotation manuelle) d’un
texte avec les concepts d’une ontologie (cf. Annexes Couplage
bookmarking social et extraction d’entités nommées : un tagging
11
sémantique).
3.3 Analyses - Révéler les structures émergentes
L’étape d’analyse permet de révéler les structures émergentes
contenues dans les données afin d’en améliorer leur exploitation
voire d’en proposer de nouveaux usages. Typiquement, nous
analysons les données d’activité d’un réseau social pour révéler
des acteurs influents et des positions stratégiques, détecter des
communautés thématiques, ou encore recommander des
contacts utiles.
Pour cela, nous nous basons sur un ensemble d’algorithmes
d’analyse de réseaux sociaux et de data mining dont nous
améliorons la précision en exploitant la sémantique des
ontologies utilisées pour décrire les données.L’analyse de
réseaux sociaux inclue notamment des algorithmes de détection
de communautés pour identifier la répartition des activités et
des acteurs, et des algorithmes de centralité pour détecter les
acteurs influents et les intermédiaires entre les communautés.
Les techniques de data mining contiennent en particulier des
algorithmes de recommandation que nous utilisons pour
découvrir des relations entre des concepts ou suggérer des mises
en relation pertinentes.
3.4 Publication - Mise en forme et accès aux résultats
Cette partie en bout de chaîne représente la synthèse des points
précédents dans le but d’outiller les utilisateurs finaux pour
manipuler et donner du sens aux données enrichies. Nous
proposons 3 types de mise à disposition des données enrichies et
des résultats d’analyse:
Des API d’accès permettant aux applications de nos clients
de les exploiter. Le scénario classique est une mise à
disposition des données au format linked data recommandé
par le W3C, avec ma possibilité d’adapter le format et le
protocole d’accès à la demande du client.
Des mises en formes graphiques pouvant être intégrées dans
des applications finales (type diagrammes, cartes
géographiques, ou encore graphes de réseaux sociaux). Nous
proposons en particulier de générer des codes javascript
pouvant être intégrés dans une application Web.
Enfin, nous proposons également la construction
d’applications finales, telles que des plate-formes de veille
collaborative, d’analyse de réseaux sociaux ou d’observatoire
avancé de contenus web (création d’états de l’art,
management d’open directories, observatoires thématiques,
etc...).
12
4 Bibliographie [Brandes et al 2009] Ulrik Brandes, Patrick Kenis, Jürgen Lerner, and Denise van Raaij. 2009.
Network analysis of collaboration structure in Wikipedia. In Proceedings of the 18th international
conference on World wide web (WWW '09). ACM, New York, NY, USA, 731-740.
[Buffa et al 2013] Michel Buffa, Nicolas Delaforge, Guillaume Erétéo, Fabien Gandon, Alain Giboin,
Freddy Limpens: ISICIL: Semantics and Social Networks for Business Intelligence. SOFSEM 2013: 67-
85
[Erétéo 2011] Guillaume Erétéo, Semantic Social Network Analysis, PhD Thesis Telecom ParisTech
Inria Orange Labs, April, 2011
[Erétéo, et al. 2011] Guillaume Erétéo, Michel Buffa, Olivier Corby, Fabien Gandon, Mylène
Leitzelman, Freddy Limpens, and Peter Sander. Handbook of Research on Methods and Techniques
for Studying Virtual Communities, chapter Semantic Social Network Analysis, a Concrete Case. 2011,
IGI Global.
[Kwak et al 2010] Kwak, H., Lee, C., Park, H., Moon, S.: What is Twitter, a Social Network or a News
Media? In Proceedings of the 19th World Wide Web Conference, Raleigh, USA. (2010)
[Liptchinsky et al 2013] Vitaliy Liptchinsky, Benjamin Satzger, Rostyslav Zabolotnyi, and Schahram
Dustdar. 2013. Expressive languages for selecting groups from graph-structured data. In Proceedings
of the 22nd international conference on World Wide Web (WWW '13). International World Wide Web
Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 761-770.
[Paolillo & Wright 2006] Paolillo, John, Wright, Elijah, Social Network Analysis on the Semantic Web:
Xml-based Internet and Information Visualization. IN: Geroimenko, Vladimir ed. Techniques and
Challenges for Visualizing FOAF. London, Springer,chapter 14,pp. 229-242
[San Martín & Gutierrez 2009] San Martín, M., Gutierrez, C., 2009. Representing, Querying and
Transforming Social Networks with RDF/SPARQL. In Antoniou, G., Grobelnik, M., Paslaru Bontas
Simperl, E., Parsia, B., Plexousakis, D., De Leenheer, P., Z. Pan, J. (Eds.), Proceedings of the 6th
European Semantic Web Conference on The Semantic Web: Research and Applications, ESWC 2009
Heraklion. Berlin, Heidelberg: Springer-Verlag, pp. 293–307.
[Scott 2000] Scott, J.: Social network analysis, a handbook. Deuxième edition, Edition Sage. (2000)
[Wasserman & Faust 1994] Wasserman, S., Faust, K.: Social Network Analysis: Methods and
Applications. Cambridge: Cambridge University Press. (1994)
13
5 Annexes
5.1 Cas d’usage 1 : le middleware MNEMOTIX pour l’Ademe
Figure 4 Schéma fonctionnel du middleware Mnémotix pour l’Ademe
Nous monitorons comme données entrantes le blog Transports du Futur, les flux RSS agrégés dans Netvibes, le profil Twitter @TdF__ademe et le groupe Linkedin Transports
du Futur. La partie veille collaborative de contenus web est réalisée avec le plugin de curation Webmarks (connecté à l’ontologie généraliste de l’environnement GEMET). Les
données Utilisateurs/Ressources web/Concepts-tags sont modélisées pour permettre un ensemble de traitement, d'analyse et de visualisation des données collectées.
14
5.2 Cas d’usage 2 : le middleware MNEMOTIX pour monitorer une communauté de chercheurs
Figure 5 Schéma fonctionnel de l’intégration de services de Mnémotix dans la plateforme d’animation du cluster
Une fois réalisée l’ontologie des concepts clés du domaine métier de la communauté, à partir de l’extraction et l’analyse de documents de référence ainsi que traces d’activités
numériques laissées par ses membres, les champs d’intérêts individuels des utilisateurs seront analysés. Ces champs d’intérêts individuels permettront de calculer des
similarités entre les utilisateurs et de proposer, pour un utilisateur donné, les profils qui lui sont sémantiquement proches.
15
5.3 Couplage bookmarking social et extraction d’entités nommées :
un tagging sémantique
Figure 6 Editeur de Webmark, tagging sémantique et détection d'entités nommées
L’innovation technologique de MNEMOTIX en 2013 est d’avoir développé une nouvelle approche pour
la détection d’entités nommées basée sur les techniques recherche d’information (IR) qui peut
s’appliquer à tout contenu web et qui est potentiellement plus souple et plus performante, même si elle
est un peu moins précise. Elle demande plus de travail en amont pour optimiser la détection de mots-
clés, mais permet très facilement d’augmenter le thésaurus avec des concepts émergents. De plus, cette
approche fonctionne aussi sur les contenus où le NLP classique échoue.
Dans la figure 9, les entités nommées détectée sont réparties en 4 groupes : les concepts directement
détectés depuis le texte (étiquette 1), les lieux (étiquette 2), les personnes (pas de personne détecté
dans l'exemple) et les concepts inférés (étiquette 3).
Actuellement la plate-forme est en mesure de gérer 4 types de terminologies différentes :
Les thésaurus SKOS,
Les tags utilisateurs saisis manuellement ou importés,
Les lieux extraits de DBPedia ou de Geonames,
Les personnalités importées depuis les réseaux sociaux ou depuis DBPedia.
Toujours sur la figure 9, dans la partie éditeur (à gauche), les champs "tags" (étiquette A) et "location"
(étiquette B) correspondent très précisément aux entités nommées sélectionnées dans la partie droite.
Le datamining effectuée par la détection d’entités nommées facilite ainsi l’activité de tagging de la
ressource.
1
3
2
A
B
C
D
16
5.4 Analyse concurrentielle Nous avons fait une étude des entreprises concurrentes de Mnémotix qui se situent à la croisée d’un
marché celui de la veille / Intelligence compétitive et d’une famille technologique celle du Web
Sémantique.
Nous présentons ci-après la matrice de positionnement des concurrents par rapport à deux axes : un
axe positionnant sur le type de solution technologique vendue, à savoir si c’est sur l’exploitation d’une
API (essentiellement en back-end), ou la mise en place d’une solution plus ou moins packagée (avec un
interface utilisateur enrichie), un axe positionnant le type de marché, soit une présence sur une niche
de marché spécifique (type e-tourisme pour Syllabs ou biodiversité pour Natural Solutions), ou sur le
domaine entier de la veille.
Niches de marché Généraliste sur la veille
Positionnement Technologie
Positionnement
marché
Vente d’accès
à des
technologies
Vente de
solutions
(Saas ou
software)