Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5...

32
IBM ® SPSS ® Text Analytics Business Analytics IBM Software Maîtriser les nouveaux défis de l'analyse de texte Préparer les données non structurées à l'analyse prédictive Introduction Tout le monde sait qu'au cours de ces 20 dernières années, notre planète a assisté à une explosion des informations qui, selon les experts, va continuer. En effet, les millions de personnes qui utilisent des ressources en ligne vont poursuivre leur utilisation et les millions de personnes qui n'ont pas encore accès à ces ressources sont en train d'y accéder. De la même façon, la quantité d'informations stockées sous forme de texte, dans les organisations commerciales et gouvernementales, a augmenté de manière exponentielle. Pour ne citer que quelques exemples : Les enquêtes d'opinion sont de plus en plus fréquemment effectuées en ligne et leurs résultats sont partagés en temps réel L'explosion des logiciels prenant en charge les ventes, les opérations des services client ou des centres d'appels a généré des quantités phénoménales de texte stockées de manière électronique dans les champs de notes de ces applications. Les analystes technologiques chez IDC estiment que 62 milliards d'e-mails sont envoyés chaque jour. Les sites Internet dans lesquels on peut effectuer des recherches génèrent assez d'informations chaque jour pour remplir des millions de livres Les blogs et les wikis, créés par des personnes individuelles et des groupes dans un but professionnel ou personnel sont en constante augmentation : au moment où vous lisez ces lignes, il existe plus de 100 millions de blogs et un nouveau blog est créé chaque seconde Une telle expansion de l'échelle des échanges d'informations aurait été quasiment inimaginable il y a 40 ans lorsque la majorité des communications commerciales et gouvernementales, de même que les rapports et les publicités, se faisaient sous format papier. C'est pourtant à cette même époque que des chercheurs visionnaires se sont mis à rechercher de nouvelles façons d'enrichir les connaissances de ceux qui travaillaient dans le domaine de la médecine et d'autres sciences, Table des matières : 1 Introduction 3 Qu'est-ce que l'analyse de texte et à quoi sert-elle ? 5 Les différentes approches de la bonne compréhension d'un texte 6 Le processus d'analyse de texte IBM SPSS 22 Application de l'analyse de texte au niveau de l'entreprise 23 Conclusion 24 Les produits IBM SPSS pour les analyses de texte 25 Annexe A 27 Annexe B 28 Annexe C 29 Lectures supplémentaires sur l'analyse de texte 31 À propos d'IBM Business Analytics

Transcript of Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5...

Page 1: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM® SPSS® Text AnalyticsBusiness AnalyticsIBM Software

Maîtriser les nouveaux défis de l'analyse de textePréparer les données non structurées à l'analyse prédictive

IntroductionTout le monde sait qu'au cours de ces 20 dernières années, notre planète a assisté à une explosion des informations qui, selon les experts, va continuer. En effet, les millions de personnes qui utilisent des ressources en ligne vont poursuivre leur utilisation et les millions de personnes qui n'ont pas encore accès à ces ressources sont en train d'y accéder.

De la même façon, la quantité d'informations stockées sous forme de texte, dans les organisations commerciales et gouvernementales, a augmenté de manière exponentielle.

Pour ne citer que quelques exemples :

Les enquêtes d'opinion sont de plus en plus fréquemment effectuées en •

ligne et leurs résultats sont partagés en temps réelL'explosion des logiciels prenant en charge les ventes, les opérations •

des services client ou des centres d'appels a généré des quantités phénoménales de texte stockées de manière électronique dans les champs de notes de ces applications.Les analystes technologiques chez IDC estiment que 62 milliards •

d'e-mails sont envoyés chaque jour.Les sites Internet dans lesquels on peut effectuer des recherches •

génèrent assez d'informations chaque jour pour remplir des millions de livresLes • blogs et les wikis, créés par des personnes individuelles et des groupes dans un but professionnel ou personnel sont en constante augmentation : au moment où vous lisez ces lignes, il existe plus de 100 millions de blogs et un nouveau blog est créé chaque seconde

Une telle expansion de l'échelle des échanges d'informations aurait été quasiment inimaginable il y a 40 ans lorsque la majorité des communications commerciales et gouvernementales, de même que les rapports et les publicités, se faisaient sous format papier.

C'est pourtant à cette même époque que des chercheurs visionnaires se sont mis à rechercher de nouvelles façons d'enrichir les connaissances de ceux qui travaillaient dans le domaine de la médecine et d'autres sciences,

Table des matières :

1 Introduction

3 Qu'est-ce que l'analyse de texte et à quoi sert-elle ?

5 Les différentes approches de la bonne compréhension d'un texte

6 Le processus d'analyse de texte IBM SPSS

22 Application de l'analyse de texte au niveau de l'entreprise

23 Conclusion

24 Les produits IBM SPSS pour les analyses de texte

25 Annexe A

27 Annexe B

28 Annexe C

29 Lectures supplémentaires sur l'analyse de texte

31 À propos d'IBM Business Analytics

Page 2: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

2

Business AnalyticsIBM Software

dans les agences gouvernementales et dans le commerce, en découvrant des connexions alors inconnues dans de grands ensembles de documents textuels à l'aide des technologies informatiques. Ils créèrent une discipline connue sous le nom de linguistique informatique, qui est désormais utilisée dans de nombreuses universités et centres de recherche publiques et privés dans le monde entier.

À l'origine, les linguistes informatiques recherchaient principalement des moyens de catégoriser et d'explorer les concepts que l'on trouvait dans les livres, les journaux spécialisés, les dossiers légaux, les demandes de brevet, les journaux, les rapports et autres archives papier qui pouvaient être converties au format numérique. Plus récemment, leurs efforts se sont étendus et ils recherchent désormais des moyens d'« explorer » de grandes quantités d'informations textuelles publiées au format numérique, comme les publications en ligne de journaux généralistes, académiques et de conférences par exemple. De plus, il existe une mine de contenu qui est née du format numérique, comme les sites Internet, les blogs, les wikis, les e-mails, les messageries instantanées (MI) ainsi que les textes contenus dans les formulaires et les enquêtes et dans les bases de données scientifiques, gouvernementales et des entreprises.

Il est de plus en plus reconnu que l'analyse de texte est devenue essentielle dans différents types de recherche scientifique et qu'elle ajoute une valeur significative aux autres formes d'analyse des données, particulièrement lorsqu'elle est utilisée pour prévoir la façon de réagir des individus dans certaines situations. Par exemple, lorsque l'on cherche à obtenir une vue précise du comportement des clients, l'analyse de texte est essentielle car elle génère des informations sur les différences d'attitudes et d'opinions qui influent sur le comportement. Avec la croissance exponentielle du nombre de textes en ligne, il est nécessaire de trouver de nouveaux moyens de structurer ces informations et de les rendre accessibles aux chercheurs et aux preneurs de décisions.

Ce document propose une courte définition de l'analyse de texte, décrit les différentes approches de cette analyse puis se concentre sur les techniques de traitement du langage naturel que les solutions d'analyse de texte IBM SPSS utilisent. Il termine par des descriptions de ces solutions et de leur rôle dans l'analyse prédictive.

Consultez l'annexe A, pages 25 et 26, pour de courtes définitions des termes associés à l'analyse de texte. Ces termes seront en italique la première fois qu'ils apparaîtront dans ce document.

Points clés :

IBM SPSS Text Analytics découvre les connexions et les relations dans tous les types de données non structurées. Cela permet aux organisations de :

Établir les connexions entre les gens et les •

organisations et entre les croyances, les sentiments et les événements

Transformer le texte en données •

quantifiablespouvantêtreutiliséespouraméliorer les performances des modèles prédictifs

Orienter les décisions commerciales •

grâce à une meilleure compréhension des clients, des employés, des étudiants ou des communautés

Page 3: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

3

Business AnalyticsIBM Software

Qu'est-ce que l'analyse de texte et à quoi sert-elle ?Tout d'abord, il peut être utile de clarifier les termes « analyse de texte » et « analyse prédictive ».

Pour mettre fin à un malentendu, l'analyse de texte est différente de la recherche textuelle. Les moteurs de recherche utilisent une approche « descendante » pour rechercher des informations dans un texte. Cela signifie que les utilisateurs finaux doivent être capables de structurer leurs requêtes pour obtenir les informations désirées. L'analyse de texte, au contraire, est une approche « montante ». Les utilisateurs n'ont pas besoin de connaître de termes de recherche particuliers. Au lieu de cela, l'analyse de texte révèle les concepts et les thèmes contenus dans un ensemble de documents puis établit une correspondance entre leurs relations.

Une définition plus formelle de l'analyse de texte serait : méthode d'extraction de connaissances à partir de données textuelles déstructurées par l'identification de concepts, sentiments et tendances clés et l'utilisa-tion de ces connaissances pour la prise de décisions. Un « document » peut être un article de journal spécialisé, des réponses avec texte libre à une étude de marché, des enregistrements de base de données (les notes d'un centre d'appels ou des e-mails des clients), le contenu d'un flux d'informations ou même un rapport de scène de crime.

L'analyse de texte découvre les connexions et les relations qui existent, non pas dans un seul document mais dans un ensemble ou un « cor-pus » de documents. Ces connexions et relations peuvent ensuite être organisées pour pouvoir être analysées, soit seules, soit en combinaison avec d'autres types de données.

Les praticiens de l'analyse de texte peuvent utiliser des algorithmes pour décrire les classes de concepts ou les associations entre certains concepts ou entités nommées. Les résultats de l'analyse de texte peuvent ensuite être incorporés dans des modèles utilisés pour les analyses prédictives.

Page 4: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

4

Business AnalyticsIBM Software

L'analyse de texte fonctionne différemment des technologies de moteurs de recherches. Les utilisateurs de l'analyse de texte n'ont pas besoin de connaître de termes de recherche particuliers. Au lieu de cela, l'analyse de texte révèle les concepts et les thèmes contenus dans un ensemble de documents puis établit une correspondance entre leurs relations.

L'analyse prédictive informe et oriente la prise de décisions en appliquant une combinaison d'analyses avancées et d'optimisation des décisions aux données dans le but d'améliorer les processus commerciaux afin qu'ils répondent aux différents objectifs des organisations. L'ajout de données textuelles ou « déstructurées » aux données « structurées » extraites des bases de données ou des archives de transaction approfondit l'intérêt des informations obtenus à partir du data mining. Les données textuelles sont souvent révélatrices des attitudes et des sentiments qui, une fois combinés avec des données démographiques ou comportementales, permettent aux analystes de prévoir plus précisément les événements, comportements ou actions associés à des individus ou à des groupes.

L'analyse de texte a prouvé qu'elle offrait des avantages quantifiables aux organisations dans de nombreuses applications. Pour les organisations commerciales, ces avantages sont notamment :

La prise en charge d'une meilleure gestion de la relation client (CRM) •

grâce à une connaissance plus détaillée des clients, de leurs souhaits et de leurs préférences, en vue de campagnes marketing plus efficaces, d'un taux d'attrition réduit et d'une amélioration de la fidélité des clients et de leur valeurL'utilisation de la « voix du client » au moyen d'enquêtes et de •

données obtenues à partir des interactions Web 2.0 afin d'améliorer la fidélité des clients et le contrôle de la marqueL'accélération des durées du cycle de développement et de •

perfectionnement des produits et la détection des problèmes associés aux produits au moyen de l'analyse de la garantie dès le début du cycleUne idée plus précise du paysage concurrentiel•

L'analyse de texte est également utile dans le secteur public, par exemple pour :

Découvrir des schémas qui suggèrent un comportement frauduleux•

Détecter des connexions entre des groupes de criminels•

Identifier des menaces sécuritaires ou des activités illégales potentielles•

Page 5: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

5

Business AnalyticsIBM Software

De plus, l'analyse de texte est d'une valeur inestimable dans la recherche scientifique et médicale, par exemple en :

Accélérant l'exploration du matériel de recherche secondaire, comme •

les rapports sur les brevets ou les articles de journauxIdentifiant des associations auparavant inconnues entre les personnes, •

les projets de recherche ou les produitsRéduisant la durée du processus de recherche de nouveaux •

médicaments

Ces exemples ne sont que quelques-uns des exemples illustrant les diverses utilisations de l'analyse de texte et la façon dont elle peut améliorer l'analyse prédictive. Chaque jour, de nouvelles applications sont mises en place. Les organisations ne peuvent tout simplement plus se permettre d'ignorer la richesse de ces informations textuelles.

Les différentes approches de la bonne compréhension d'un texteUne organisation dispose de plusieurs approches lorsqu'elle utilise l'analyse de texte. Autrefois, il fallait choisir entre précision et rapidité, entre le coût du travail humain et le coût des technologies informatiques. Aujourd'hui, les organisations récoltent les bénéfices d'une précision améliorée et d'un coût réduit en appliquant des technologies informatiques aux analyses de texte. Néanmoins, il sera toujours nécessaire d'intégrer les connaissances humaines à ce processus.

Une approche possible pour bien comprendre un texte est tout simplement de donner ces documents à lire à des personnes, de noter leurs contenus et de déterminer dans quelles catégories les placer. Les spécialistes des études de marché par exemple, catégorisent ou « codent » les réponses libres des enquêtes. Parce que les êtres humains sont doués pour comprendre les textes, cette approche est relativement précise ; mais elle prend du temps et coûte cher. De plus, une approche manuelle ne permet pas d'identifier les relations ou les tendances que contiennent les informations analysées. Avec l'immense volume de texte désormais disponible, souvent dans des langues différentes, d'autres approches sont nécessaires.

Une deuxième approche est d'utiliser des solutions automatisées basées sur les statistiques. Mais certaines d'entre elles comptent simplement le nombre d'occurrences des termes et calculent leur proximité aux termes associés. Comme elles ne peuvent pas tenir compte des ambiguïtés des langages humains, des relations pertinentes peuvent être cachées dans des masses de résultats non pertinents, ou complètement ignorées. Certaines de ces solutions basées sur les statistiques compensent ces défauts en fournissant aux analystes des manières de créer des recueils de règles aidant à supprimer les résultats non pertinents. Mais ces recueils de règles doivent être créés et continuellement mis à jour par des analystes, ce qui augmente les coûts et la complexité.

Les données textuelles sont souvent révélatrices des attitudes et des sentiments qui, une fois combinés avec des données démographiques ou comportementales, permettent aux analystes de prévoir plus précisément les événements, comportements ou actions associés à des individus ou à un groupe.

Page 6: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

6

Business AnalyticsIBM Software

D'autres solutions basées sur les statistiques se basent sur des outils d'auto-apprentissage tels que les réseaux Bayésiens, les réseaux de neurones, les machines à vecteurs de support (SVM) et/ou l'analyse sémantique latente (ASL). Bien que ces solutions soient plus efficaces que d'autres approches statistiques, elles ont l'inconvénient d'être des « boîtes noires », c'est-à-dire qu'elles utilisent des mécanismes cachés qui ne peuvent pas être réglés, sauf par des statisticiens ou des programmeurs hautement qualifiés.

L'analyse de texte basée sur la linguistique offre la même rapidité et le même rapport qualité/prix que les systèmes basés sur les statistiques mais elle propose un niveau de précision beaucoup plus élevé. L'analyse de texte basée sur la linguistique se fonde sur un champ d'étude appelé traitement du langage naturel (NLP). La compréhension du langage que permet l'approche NLP élimine les ambiguïtés du texte et fait de l'analyse de texte basée sur la linguistique l'approche la plus précise possible.

Les solutions basées sur la linguistique peuvent nécessiter une interven-tion humaine pour développer des dictionnaires pour une industrie ou un champ d'études spécifiques par exemple. Mais les avantages qui découlent de ces efforts sont particulièrement importants : les résultats sont plus précis et les techniques utilisées sont plus transparentes ce qui signifie qu'elles peuvent être modifiées par les utilisateurs pour améliorer la précision des résultats.

Le processus d'analyse de texte IBM SPSSTout comme le data mining, l'analyse de texte est un processus itératif qui gagne en efficacité lorsqu'il suit une méthodologie éprouvée. Cela améliore la productivité des analystes, permet de comparer les résultats, d'utiliser les découvertes d'une analyse pour compléter ou orienter d'autres analyses et facilite la prise de décision basée sur les données.Dans le domaine du data mining, la méthodologie conventionnelle de l'industrie, utilisée par des milliers d'organisations dans le monde entier est le CRISP-DM (CRoss-Industry Standard Process for Data Mining). C'est cette même méthodologie qui prend en charge l'analyse de texte.

Ce document décrit les processus linguistiques que l'analyse de texte utilise et qui suivent les grandes lignes de la méthodologie CRISP-DM : une fois les données comprises, préparées et modélisées, les modèles générés sont évalués, qu'ils contiennent uniquement des résultats d'analyse de texte ou qu'ils soient combinés avec d'autres types de données. Pour finir, les résultats sont déployés, soit sous forme de rapports, soit sous forme de résultats générateurs de systèmes automatisés tels que les moteurs de recommandations. Tout comme avec le data mining, les deux principales étapes de l'analyse de texte sont la préparation des données et la compréhension des données.

L'analyse de texte basée sur la linguistiqueoffrelamêmerapiditéetlemêmerapportqualité/prixquelessystèmes basés sur les statistiques mais elle propose un niveau de précision beau-coup plus élevé. De plus, les techniques utilisées sont plus transparentes ce qui signifiequ'ellespeuventêtremodifiéespar les utilisateurs pour améliorer la précision des résultats.

Page 7: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

7

Business AnalyticsIBM Software

Les sections suivantes décrivent la façon dont les analystes utiliseraient les produits d'analyse de texte IBM SPSS pour s'atteler aux analyses de texte. Ce processus est composé de sept étapes majeures :

La préparation du texte pour l'analyse1. L'extraction de concepts2. La recherche d'opinions, de relations, de faits et d'événements à partir 3. de l'analyse des liens du texte La création de 4. catégories La création de modèles d'analyse de texte5. La fusion de modèles d'analyse de texte avec d'autres modèles de 6. données Le déploiement des résultats sur les modèles prédictifs7.

Parce que ce document se concentre sur les capacités linguistiques des produits d'analyse de texte IBM SPSS, il couvrira les quatre premières étapes de ce processus en plus d'une discussion sur le déploiement.

Le flux de travail reste le même, que ce soit lors de l'analyse d'articles de journaux, de documents internes, de pages Internet, de réponses textuelles aux enquêtes, de notes de centres d'appels ou d'autres sources de données textuelles.

Étape 1 : La préparation du texte pour l'analysePour effectuer une analyse de texte, il faut un ensemble (ou « corpus ») de documents. Un corpus peut aller d'un petit échantillon à des dizaines de millions de documents. Ces documentspeuventêtreécritsenplusieurslanguesetreprésententdenombreuxtypesdefichiers:lesformatsHTML,PDF,ASCII,lese-mails et les formats Microsoft®Office.

Les solutions d'analyse de texte IBM SPSS peuvent traiter des textes sous tous ces formats. De plus, elles peuvent traiter le texte des enquêtes enregistré aux formats de IBM® SPSS® Data Collection, de même que du texte provenant des flux RSS (notamment les blogs et les flux d'informations), des bases de données et d'autres sources compatibles ODBC.

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Page 8: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

8

Business AnalyticsIBM Software

Les solutions d'analyse de texte IBM SPSS utilisent de puissantes capacités basées sur la linguistique pour préparer les documents à l'analyse. Les trois étapes de la préparation des documents sont :

L'identification de la langue•

La conversion des documents•

La segmentation•

Bien que ces étapes aient lieu « en arrière-plan », il est important de comprendre ce qu'il se passe pendant cette phase du processus d'analyse de texte.

L'identification de la languePour les corpora qui utilisent plusieurs langues, l'identification de la langue est la première étape du processus d'extraction. (Pour les corpora à langue unique, cette étape n'est pas nécessaire).

L'extracteur d'analyse de texte IBM SPSS peut reconnaître plus de 80 langues dans différents formats, en fonction de schémas connus sous le nom de « n-grammes », spécifiques à chaque langue. Environ 400 n-grammes sont utilisés pour identifier chaque langue. Ci-dessous se trouve un sous-ensemble de tri-grammes permettant de reconnaître la langue française (certains sont des combinaisons de lettres, d'autres sont des combinaisons de lettres et d'espaces).

« le », « omm », « à », « mma », « le », « du », « nt », « ma », « et », « té », « dé », « les », « ur », « ux », « une », « ré », « iod », « pou », « rp », « ui », « ait », « rpa », « pré », « ce », « ité », « ire », « ée », « com », « par », « ef », « od », « au », « iqu », « ref », « ét », « oit », « lpa », « our », « tio », « air », « eur », « du », « és », « av », « ns », « tai »

Les solutions d'analyse de texte IBM SPSS sont disponibles pour des extracteurs en sept langues natales : anglais, français, espagnol, néerlandais, allemand, italien et portugais. (Les produits d'analyse de texte IBM SPSS prennent également en charge l'extraction de concepts japonais ; l'extraction du Japonais utilise un processus autre que celui décrit dans ce document).

De plus, avec IBM® SPSS® Modeler Premium Language Translation Interface, l'extracteur de langue anglaise prend en charge la traduction de nombreuses langues, notamment : l'arabe, le chinois, l'hindi, le perse, le roumain, le russe, le somali, le suédois.

La conversion des documentsUne fois la langue identifiée, la solution d'analyse de texte IBM SPSS convertit les documents en un format pouvant être utilisé pour l'analyse à venir. À l'aide de filtres intégrés, le logiciel convertit les types de fichier communs en format de texte en clair.

Page 9: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

9

Business AnalyticsIBM Software

Le texte des bases de données et d'autres sources compatibles ODBC peut également être converti. Par exemple, dans un document XML, les balises peuvent servir à spécifier le texte à extraire, notamment les titres de page, les métadonnées et les balises de documents, si nécessaire. La solution d'analyse de texte IBM SPSS supprime également les éléments non textuels, tels que les fichiers graphiques, qui ne peuvent pas être utilisés pour l'analyse de texte.

La segmentationAprès la conversion des documents en texte clair, la solution d'analyse de texte segmente le texte en éléments individuels dont les concepts seront extraits. Le logiciel d'analyse de texte IBM SPSS identifie les marqueurs de fin de phrases, de paragraphes et de documents. Elle supprime également certains caractères spéciaux ou séquences de caractères et les remplace par des espaces.

Au cours de cette étape, le logiciel corrige ou prépare automatiquement le texte pour une extraction optimale. Par exemple, le logiciel identifie les chaînes de caractères du texte d'entrée en fonction des délimiteurs. Les délimiteurs comprennent les espaces, les balises, les retours chariots et les signes de ponctuation. Les technologies d'analyse de texte IBM SPSS traiteront tous les mots contenant un signe de ponctuation non précédé ou suivi d'un espace, comme faisant partie d'un terme dans les étapes suivantes du processus. Par exemple :

U.S.•

protéine xalpha(s)•

sous-unité x.k-atpase beta-m•

Les solutions d'analyse de texte IBM SPSS savent également traiter la ponctuation erronée d'un texte, comme une mauvaise utilisation des points, des virgules, des barres obliques et d'autres formes de ponctuation.

Étape 2 : l'extraction de conceptsLes processus impliqués dans l'extraction de concepts permettent aux analystes de découvrir des concepts dont ils n'auraient pas nécessairement réalisé l'existence, dans un ensemble de documents spécifiqueetderechercherdesinstancesdecesconceptsoùqu'ellessetrouvent,mêmedansunvasteensemblededocumentstextuels.

Les cinq étapes majeures du processus d'extraction de concepts sont :

La gestion des ressources linguistiques•

L'extraction de termes•

L'attribution du type•

La création de• classes d'équivalenceL'indexation•

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Page 10: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

10

Business AnalyticsIBM Software

La gestion des ressources linguistiquesBien qu'il ne soit généralement pas utile de modifier les ressources linguistiques que contient la solution d'analyse de texte IBM SPSS, il est important de connaître les ressources disponibles.

Les ressources linguistiques sont classées par ordre hiérarchique. Au plus haut niveau se trouvent des modèles de ressources spécialisés, chacun d'entre eux étant composé d'un ensemble de bibliothèques, de ressources compilées et de ressources avancées. Les bibliothèques, à leur tour, contiennent plusieurs types de dictionnaires.

Un modèle de ressources de base IBM SPSS est inclus pour toutes les langues prises en charge. De plus, pour l'anglais, il existe des modèles spécifiques à de nombreux domaines d'application, comme la gestion de la relation client, l'information commerciale, l'ontologie génétique, la génomique, le Medical Subject Headings ou MeSH®, l'IT, les opinions et les renseignements de sécurité. Des modèles spécialisés sont également disponibles pour d'autres langues.

Chaque modèle peut contenir plusieurs bibliothèques. Par exemple, la bibliothèque « budget » permet d'extraire des termes associés au coût de quelque chose. La bibliothèque « opinions » contient des milliers de mots qui représentent des attitudes, des qualificatifs ou des préférences qui indiquent une opinion sur quelque chose. Elle est disponible pour l'anglais, le français, l'espagnol, le néerlandais, l'allemand et le japonais. Une bibliothèque centrale est disponible dans toutes les langues.

Chaque bibliothèque contient plusieurs dictionnaires qui sont des listes de mots, de relations ou d'autres informations permettant de spécifier ou d'affiner l'extraction. Il existe deux types de dictionnaires dans les solutions d'analyse de texte IBM SPSS : les dictionnaires compilés, que les utilisateurs finaux ne peuvent pas modifier et d'autres dictionnaires, qu'ils peuvent modifier.

La solution d'analyse de texte IBM SPSS contient deux types de dictionnaires compilés :

Un dictionnaire d'extraction, c'est-à-dire une liste des formes de base •

avec des codes de partie de discours (PoS) pour chaque langue. Par exemple, les parties de discours spécifiées dans le dictionnaire d'extraction pour l'anglais contiennent des noms, des verbes, des adjectifs, des adverbes, des participes, des coordinations, des déterminants et des prépositions.Des listes de noms propres, également connues sous le nom de •

dictionnaires d'entités, qui sont utilisées pour attribuer des termes extraits aux types. Les types sont composés des organisations, des individus, des lieux, des produits.

Les utilisateurs n'ont pas besoin de personnaliser les dictionnaires pour obtenir des résultats satisfaisants des solutions d'analyse de texte IBM SPSS. Cependant, les spécialistes du text mining peuvent améliorer l'efficacité de l'extraction à l'aide de dictionnaires définis par les utilisateurs. Ces dictionnaires peuvent contenir :

Il n'est pas nécessaire de personnaliser les ressources linguistiques fournies avec les produits d'analyse de texte d'IBM SPSS. Cependant, il est possible de le faire et, dans certains cas, cela permettrad'améliorerl'efficacitédel'extraction de concepts.

Page 11: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

11

Business AnalyticsIBM Software

des dictionnaires de types qui attribuent un type de • catégorie particulier à un mot. Par exemple, vous pouvez créer des types qui se retrouvent fréquemment dans votre industrie, et qui contiennent les noms des produits de votre entreprise. Ainsi, une société étudiant les droits de garantie associés aux ventes d'automobiles, par exemple, pourrait saisir correctement les noms des différentes pièces de voiture auxquelles les documents font référence.Des dictionnaires d'exclusion qui forcent l'exclusion de concepts de la base •

de données de conceptsDes dictionnaires des synonymes qui identifient les termes ayant des •

significations similaires afin de produire des concepts ayant une définition plus précise. Ces dictionnaires sont également utilisés pour définir des acronymes.Des dictionnaires de mots clés qui identifient les produits, les organisations, les •

noms, les termes et les lieux en vérifiant la présence de certains mots.Le dictionnaire global qui englobe les dictionnaires de types et de mots •

clés afin de réconcilier les ambiguités entre ces dictionnaires pour des mots spécifiques (dans des domaines spécifiques).

Les produits d'analyse de texte IBM SPSS contiennent l'éditeur de ressources IBM SPSS. Il permet aux utilisateurs d'éditer les dictionnaires existants, de créer et d'éditer des dictionnaires personnalisés et de créer des règles spécialisées, comme celles qui gouvernent l'analyse des liens du texte IBM SPSS (décrite dans les pages 11 à 13). L'éditeur de ressource IBM SPSS permet aux utilisateurs de créer des attributions de types personnalisées. Par exemple, une entreprise qui consulte des documents associés à l'industrie automobile peut vouloir définir une attribution de type pour des modèles de voiture spécifiques.

Les ressources linguistiques de l'éditeur de ressources IBM SPSS sont développées de façon à ce qu'une application puisse être partagée par différentes applications et utilisateurs. Les analystes peuvent facilement importer des dictionnaires existants, exporter et partager des modèles et des bibliothèques de dictionnaires définis par les utilisateurs, créer des règles et définir les priorités à prendre en compte pendant le processus d'extraction des termes.

L'extraction de termesLa solution d'analyse de texte IBM SPSS débute le processus d'extraction de concepts en identifiant les termes canditats, qui sont ensuite analysés plus en profondeur. Les termes candidats sont des mots ou des groupes de mots qui permettent d'identifier des concepts dans le texte.

Pour faciliter ce processus, les solutions IBM SPSS disposent de techniques intégrées spécifiques d'identification des entités linguistiques et non linguistiques.

Identification des entités non linguistiques

Les solutions d'analyse de texte IBM SPSS permettent l'extraction des entités dans un texte qui ne sont pas considérées comme des mots. Ces entités non linguistiques comprennent : les URL, les adresses électroniques et IP, les numéros de téléphone, les numéros de sécurité sociale, les devises, les heures et les dates, les poids et les mesures.

Page 12: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

12

Business AnalyticsIBM Software

La solution d'analyse de texte IBM SPSS utilise un ensemble de règles appelé « expressions régulières » qui permet d'extraire des schémas connus pour ces entités non linguistiques. Par exemple, un numéro avec le format 999-99-9999 sera extrait et saisi comme numéro de sécurité social américain. De la même façon, un numéro au format +33.1.55.55.5555 sera extrait et saisi comme un numéro de téléphone français. Afin d'étendre les applications de cette solution, les utilisateurs peuvent définir leurs propres règles d'identification des entités non linguistiques.

Identification des entités linguistiques Après avoir nommé et identifié les entités non linguistiques, le logiciel d'analyse de texte IBM SPSS utilise des techniques d'extraction linguistique pour identifier les mots et les groupes de mots importants du texte. Un terme ne contenant qu'un seul mot s'appelle un uniterme, les termes composés de plusieurs mots s'appellent des multitermes.

Les mots seuls qui ne se trouvent pas dans le dictionnaire d'extraction sont considérés comme des unitermes. Un traitement spécifique est appliqué aux unitermes, en fonction de la valeur qu'ils ont pour l'analyse.

Du point de vue grammatical/linguistique, les candidats multitermes ont souvent des structures de phrases nominales. Ces multitermes sont identifiés à l'aide d'extracteurs de schémas de parties de discours. Par exemple, le multiterme tampon encreur, qui suit le schéma de partie de discours « nom nom », contient deux composants. Par exemple, le multiterme tampon encreur rouge, qui suit le schéma de partie de discours « nom nom adjectif », contient trois composants. Il existe environ 15 à 20 schémas par langue ; la taille de schéma maximum est d'environ sept composants, selon la langue.

Les solutions IBM SPSS contiennent les schémas de termes standard qui sont principalement des phrases nominales. Cependant, les utilisateurs peuvent facilement créer leurs propres schémas à l'aide de l'éditeur de ressources du logiciel (décrit page 11).

Attribution du typeUne fois les termes extraits, un type leur est attribué. L'attribution du type permet de mieux comprendre le contenu d'un document textuel.

Une étape de ce processus est l'identification des entités nommées. Les entités nommées sont composées des individus, des entreprises, des noms de produits et des lieux. Souvent, les listes d'entités nommées jouent un rôle important dans la définition des catégories ou dans la recherche de relations qui, à leur tour, pourront permettre de mieux comprendre certaines conditions ou schémas de comportement.

Les dictionnaires d'entités nommées et les dictionnaires internes permettent de vérifier la présence des mots ou des schémas et de catégoriser un terme en entité nommée.

Page 13: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

13

Business AnalyticsIBM Software

Ces dictionnaires contiennent une liste exhaustive de prénoms par langue ; si ces termes sont identifiés, la solution d'analyse de texte les traite comme des termes candidats. De plus, la solution d'analyse de texte utilise un algorithme spécial pour traiter les chaînes de lettres majuscules, comme les titres de poste, afin que ces schémas spécifiques puissent être extraits. Les termes scientifiques, tels que les gênes, les acides aminés et les protéines, peuvent également être identifiés, à l'aide d'extensions des règles linguistiques intégrées à l'application.

Les solutions d'analyse de texte IBM SPSS emploient également des dictionnaires compilés et définis par les utilisateurs, pour attribuer le type sémantique aux autres termes extraits. La solution examine la liste des termes à l'aide d'un système de priorités. Les dictionnaires compilés imposent un ordre spécifique de saisie des organisations, individus, produits et lieux. Les dictionnaires définis par les utilisateurs sont appliqués en fonction de l'ordre dans lequel ils sont définis dans l'éditeur de ressources.

Création de classes d'équivalenceUne classe d'équivalence est une forme unique de plusieurs variantes du même mot ou de la même phrase.

La solution d'analyse de texte IBM SPSS utilise un ensemble de fichiers de synonymes et d'algorithmes intégrés pour comparer les candidats descripteurs et identifier les classes d'équivalence. Cette fonction permet de s'assurer que, par exemple, cancer de la thyroïde et cancer thyroïdien soient traités de la même façon. De plus, elle permet de conserver la cohérence des termes extraits au cours de plusieurs processus d'extraction.

Les utilisateurs peuvent également forcer la substitution d'un terme à un autre. Par exemple, remplacer :

pdg par président directeur général•

s.v.p par s'il vous plaît•

La solution d'analyse de texte appliquera toujours les substitutions, même si le terme de substitution ne se trouve pas dans les documents per se.

De plus, la solution d'analyse de texte utilise la logique floue pour regrouper des termes semblables sans avoir recours aux ressources définies par les utilisateurs. Elle identifie les différentes orthographes en supprimant les voyelles et les double ou triple consonnes puis en effectuant des comparaisons. Par exemple :

support techinique = support technique•

équipament = équipement•

addidas = adidas•

Ces fonctions sont extrêmement utiles lorsque la qualité du texte est mauvaise, comme cela peut être le cas lors de réponses d'enquêtes ouvertes, d'e-mails et de données de gestion de la relation client.

Page 14: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

14

Business AnalyticsIBM Software

Le logiciel d'analyse de texte IBM SPSS utilise également des algorith-mes intégrés qui détectent et « corrigent » les formes suivantes : (Pour des informations supplémentaires sur ces algorithmes, consultez l'annexe B page 27).

Suppression des suffixes de déclinaison. Par exemple, consommateur •

américain = consommateurs américains.Suppression des mots outils. Pour que service de la clientèle = • service clientèle.Variantes des séparateurs. Mot clé = mot-clé. Également, baseball = •

base-ball.Composants inversés. Par exemple, données improbables = • improbables données.Caractères accentués/non-accentués. Therefore, evguéni primakov = •

evgueni primakov.

Pour déterminer le concept à utiliser pour le terme majeur de la classe d'équivalence, le composant de l'extracteur applique les règles suivantes, dans l'ordre suivant :

Synonyme spécifié par l'utilisateur

La forme la plus fréquente du terme dans le corpus•

La forme la courte du terme (qui correspond généralement à la forme •

basique du terme)Le premier terme qui apparaît dans la liste des termes extraits•

IndexationÀ la fin du processus d'extraction, la solution d'analyse de texte présente une liste des termes extraits, regroupés et saisis. Les index indiquent la fréquence d'apparition d'un terme dans chaque document et dans le corpus en son entier. Des index sont présentés pour chaque document du corpus.

Étape 3 : la recherche d'opinions, de relations, de faits et d'événements avec IBM SPSS Text Link AnalysisLorsque le processus d'extraction est terminé, les analystes ont la possibilité d'utiliser l'analyse des liens du texte pour décrire les relations entre les concepts au niveau de la phrase, ainsi que les opinionsouqualificatifsassociésàcesconcepts.

L'analyse des liens du texte, également utilisée pour décrire des faits et des événements, permet aux analystes d'identifier et de classer les concepts positifs et négatifs dans les réponses textuelles. En plus d'assertions positives/négatives simples, la solution d'analyse de texte IBM SPSS offre des informations sur les attitudes positives et négatives en « lisant » les indices contextuels, comme la structure des phrases.

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Page 15: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

15

Business AnalyticsIBM Software

Ainsi, des sentiments, comme ceux contenus dans les phrases ci-dessous, seraient regroupés correctement, bien qu'une opinion soit positive, une soit négative et une soit un mélange des deux :

Le responsable de l'hôtel était très poli. Le responsable de l'hôtel était extrêmement grossier. Le personnel de l'hôtel était poli mais la chambre était trop petite.

En combinant les termes saisis (c'est-à-dire les individus, les organisations, les gênes, etc.), les dépendances linguistiques, les chaînes littérales et les opérateurs booléens, l'analyse des liens du texte permet de découvrir des liens compliqués et d'obtenir des données au format défini par l'utilisateur. Les expressions textuelles peuvent être transformées en données qui peuvent être quantifiées et combinées avec d'autres résultats quantifiables.

Les organisations peuvent utiliser ce genre de données pour prévoir, par exemple, les types de clients (par données démographiques, par valeur, par secteur) auxquels certains produits ou caractéristiques d'un service sont le plus susceptibles de plaire.

Les organisations peuvent également utiliser les capacités de l'analyse des liens du texte pour découvrir des connexions entre des faits et des événements et soutenir des initiatives telles que l'information commerciale, la détection des fraudes et les recherches sur les sciences biologiques. L'analyse de texte basée sur le traitement du langage naturel peut déterminer que les trois phrases suivantes signifient la même chose :

La société A a été achetée par la société B La société B a acheté la société A L'achat par la société B de la société A est terminé

Et si dans un document, on devait trouver « La société B n'a pas pu acheter la société A », l'analyse des liens du texte identifierait correctement que la transaction n'a pas eu lieu.

Les règles qui gouvernent le fonctionnement de l'analyse des liens du texte dans les produits d'analyse de texte IBM SPSS se trouvent dans l'éditeur de ressources. (Pour des exemples d'analyse des liens du texte, consultez l'annexe C page 28).

Page 16: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

16

Business AnalyticsIBM Software

Éléments du module d'analyse des liens du texte IBM SPSSLe module d'analyse des liens du texte IBM SPSS contient trois sections : les variables, les macros et les règles.

Une variable peut être considérée comme une « classe sémantique » : c'est-à-dire qu'elle correspond aux types attribués par le moteur d'extraction pendant l'étape d'attribution du type. Tous les termes extraits regroupés dans le même type seront, par conséquent, regroupés sous la même variable. La définition d'une variable comprend la syntaxe suivante :

un nom de variable unique•

Un type•

Par exemple, quand Individu est le nom de la variable telle qu'il est utilisé dans les macros et les règles et que I est le code de type interne attribué par l'extracteur :

nom [variable] = Individu valeur=I

Les solutions d'analyse de texte IBM SPSS vous permettent d'obtenir une liste des concepts et opinions extraits en plus de visualisations telles que le graphique Internet en haut à droite. Ce graphique signale les concepts et les opinionstrouvésdanslesenquêtesoudansd'autresdocuments,etmetengrasceuxrencontrésleplusfréquemment.

Page 17: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

17

Business AnalyticsIBM Software

Une macro est utilisée dans un schéma pour regrouper des variables ou des listes de mots et pour simplifier les règles de schéma. La définition d'une macro comprend la syntaxe suivante :

un nom de macro unique•

Une définition, soit la liste des variables, des mots et/ou des macros•

Imaginons trois variables, Positif, Négatif et Contextuel et la macro mOpinion :

[macro] nom=mOpinion valeur=($Positif|$Négatif|$Contextuel)

Au lieu d'écrire une règle avec ($Positif|$Négatif|$Contextuel), vous pouvez utiliser la macro $mOpinion, car les deux sont équivalentes.

Un schéma est une requête booléenne utilisée pour rechercher une correspondance sur une phrase. Les schémas contiennent un ou plusieurs des éléments suivants : les variables, les macros ou les chaînes littérales. La syntaxe de ces schémas est la suivante :

Un n° d'ID de schéma unique•

Un nom de schéma (n'a pas besoin d'être unique)•

La valeur (la syntaxe de schéma à mettre en correspondance)•

Le résultat (le format créé lorsque la mise en correspondance du •

schéma est effectuée). Il peut exister plusieurs résultats pour une seule règle, sur une seule phrase ou partie de phrase (particulièrement dans le cas d'une coordination).

Par exemple, imaginons la règle suivante, où #@# Paul Durand est le directeur d'ABCD Inc. en France.

[schéma(201)] nom = 1_201 valeur = $Individu ($SEP|$mDet|$mSupport|en tant que|alors) {1,2} @{0,1} $Rôle (de|avec|pour|en|à|chez) @{0,1} $Organisation @{0,2} $Lieu résultat(1) =$1\t#1\t$4\t#4\t$7\t#7\t$9\t#9

Page 18: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

18

Business AnalyticsIBM Software

L'extracteur lira chaque phrase et essaiera de rechercher la séquence suivante :

Les noms d'individu, suivis de•

Une ou deux virgules ($SEP), un déterminant ($mDet), un auxiliaire •

($mSupport), les chaînes « alors » ou « en tant que », suivies de :0 ou 1 mot (@{0,1}, suivi de•

Un rôle ($Rôle), suivi de•

Une des chaînes suivantes : « de », « avec », « pour », « en », « à » ou •

« chez », suivies de0 ou 1 mot (@{0,1}, suivi de•

Un nom d'organisation, suivi de•

0, 1 ou 2 mots (@{0,2}, suivis de•

Un nom de lieu ($Lieu)•

Cela correspondra à des phrases telles que :

Paul Durand, directeur d'ABCD Inc. en France•

Paul Durand est le directeur d'ABCD Inc. en France•

La société C a nommé Paulette Durand en tant que présidente •

directrice générale de DFG Ltd. aux États-Unis

Les schémas sont compilés et ne sont pas classés dans l'ordre de leur apparition mais selon leur n° d'ID. Parce que la première règle qui correspond à un schéma « l'emporte » (empêche les autres règles de correspondre), il est important que les schémas les plus précis soient déclarés en premier, suivis des plus généraux.

Étape 4 : la création de catégoriesLa création de catégories et la catégorisation des documents sont les étapes suivantes de l'analyse de documents textuels.

Chaque ensemble de données étant unique, le choix des techniques et l'ordre dans lequel un chercheur les applique sont susceptibles de varier d'un projet à l'autre. Cependant, dans tous les cas, le processus de classification est itératif : un chercheur applique certaines techniques, évalue les résultats, effectue des modifications soit à la technique choisie soit aux catégories en résultant et affine encore les résultats.

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Page 19: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

19

Business AnalyticsIBM Software

Les solutions IBM SPSS contiennent à la fois des techniques de classification manuelles et automatisées. Les techniques automatisées, basées sur la linguistique, comprennent :

la dérivation de concept•

L'inclusion de concept•

Les réseaux sémantiques•

Les règles de cooccurrence•

Ces techniques peuvent être utilisées à la fois sur des noms et sur des qualificatifs ou des adjectifs. Elles classifient les termes en identifiant ceux susceptibles d'avoir la même signification (également appelés synonymes) ou ceux qui sont plus spécifiques que la catégorie représentée par un terme (hyponymes). Pour des résultats plus précis, ces techniques linguistiques excluent les adjectifs et autres qualificatifs.

La dérivation de concept est une technique qui classe un concept en en recherchant d'autres qui lui sont associés. Cela s'effectue en recherchant si des composants du concept sont associés morphologiquement. Par exemple, le concept « techniques de vente » serait regroupé avec les concepts « technique pour vendre » et « technique de la vente ». Cette technique fonctionne bien avec les données textuelles de différentes longueurs et génère un petit nombre de groupes concis.

Les groupes d'inclusion de concepts recherchent des concepts inclus dans d'autres concepts. Par exemple, les termes « base de données relationnelle » et « base de données multidimensionnelle » seraient regroupés dans le terme « base de données ». Une série de concepts utilisant l'inclusion correspond souvent à une hiérarchie taxinomique (une relation « ISA » sémantique). Cette technique commence par identifier les unitermes ou les multitermes inclus dans d'autres multitermes (et placés comme suffixes, préfixes ou éléments facultatifs) puis les regroupe. Pour déterminer l'inclusion, l'algorithme ignore l'ordre des mots et la présence des mots vides tels que « en » ou « de ». Cette technique fonctionne bien avec le texte des données de réponses d'enquête de différentes longueurs et génère généralement un grand nombre de groupes concis.

Les réseaux sémantiques regroupent les termes en fonction des relations connues entre les mots contenues dans un réseau intégré. Cette technique commence par identifier les sens possibles de chaque concept. Les concepts qui sont des synonymes ou des hyponymes sont ensuite regroupés. Cette technique peut produire de très bons résultats lorsque les concepts font partie du réseau sémantique et ne sont pas trop ambigus. Elle n'est pas aussi utile lorsque le texte contient une importante terminologie spécialisée et spécifique à un domaine particulier que le réseau ne connaît pas. Au début de la classification des termes, les utilisateurs peuvent vouloir utiliser cette technique par elle-même pour voir quel genre de catégories elle produit.

Page 20: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

20

Business AnalyticsIBM Software

Les règles de cooccurrence basées sur l' « analyse des mots cooccurrents » sont utilisées pour regrouper des termes en fonction de la fréquence de leur cooccurrence dans l'ensemble de documents. Des termes ont une cooccurrence élevée s'ils apparaissent fréquemment dans les mêmes documents, les réponses aux enquêtes ou d'autres textes et si on ne les trouve que rarement séparés. Cette technique peut produire de bons résultats, particulièrement avec de grands ensembles de données.

Les règles de cooccurrence permettent de découvrir et de regrouper des concepts fortement associés dans un ensemble de documents ou d'archives. Avec cette approche, les analystes peuvent limiter le nombre de concepts cooccurrents qui peuvent être regroupés dans une même règle. Ils peuvent également accélérer le processus de catégorisation en limitant le nombre de documents ou d'archives à utiliser pour la création de catgéories.

Modifications disponibles pour une efficacité amélioréeLorsque des utilisateurs créent des catégories à l'aide de techniques basées sur la linguistique, ils peuvent sélectionner des techniques spécifiques puis modifier des paramètres tels que le nombre de catégories à créer ou le nombre de catégories dans lequel un terme seul peut apparaître.

Par exemple, si un réseau sémantique a été sélectionné comme technique, l'analyste peut sélectionner le profil pour définir le comportement des algorithmes sous-jacents : un profil « large » ou « restreint ». Un profil large gère efficacement les termes ambigus. Il crée des catégories plus nombreuses mais peut regrouper des termes dans des catégories qui ne sont pas étroitement liées dans le contexte de vos données. Un profil restreint exclut les termes particulièrement ambigus et se concentre sur les relations les plus claires entre les termes. Il aura tendance à créer des catégories moins nombreuses et plus petites.

De plus, les utilisateurs peuvent définir le score de proximité minimum nécessaire au regroupement des termes. Plus le score est bas, plus il y aura de résultats ; en revanche, ces résultats risquent d'être plus ambigus. En sélectionnant un score élevé, un analyste obtiendra des résultats moins nombreux, mais ces résultats seront liés ou associés de manière plus significative.

Une autre façon d'influencer la création de catégories est de définir un nombre minimum de cooccurrences du terme dans le texte pour qu'il soit extrait. Par exemple, une valeur de deux limite l'extraction aux concepts qui apparaissent au moins deux fois dans l'ensemble d'archives ou de documents.

En combinaison avec les techniques linguistiques automatisées décrites ci-dessus, les techniques manuelles permettent aux utilisateurs des solutions d'analyse de texte IBM SPSS d'inclure des termes dans des groupes (ou de les exclure de manière spécifique), à l'aide de la fonction de glisser-déposer. De plus, les utilisateurs peuvent appliquer leurs propres plans de codage ou importer des catégories qui ont été exportées depuis IBM® SPSS® Text Analytics for Surveys. Une autre option est de copier, coller et modifier les codes des catégories et les plans de codage en utilisant la fonctionnalité du gestionnaire des plans de codage IBM SPSS.

Page 21: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

21

Business AnalyticsIBM Software

Les utilisateurs disposent d'un certain nombre d'options permettant d'affiner les catégories développées. Par exemple, un analyste peut :

Ajouter des concepts ou des opinions à une définition de catégorie•

Modifier une définition de catégorie•

Fusionner des catégories•

Déplacer des catégories d'une « branche » de l'arbre à une autre•

Supprimer les catégories•

Créer des graphiques visuels qui montrent la façon dont les catégories •

fonctionnent ensemble puis effectuer des modificationsModifier les ressources linguistiques utilisées puis extraire de nouveau •

les catégories

Une fois les catégories créées, les organisations peuvent attribuer des identifiants aux commentaires, e-mails ou documents entrants en fonction de la probabilité que certains types de termes apparaissent dans le texte. Cette catégorisation de documents permet aux organisations de transmettre efficacement des commentaires ou des documents aux individus, groupes ou systèmes appropriés.

Étape 5 : le déploiement des résultats sur les modèles prédictifsLe déploiement des résultats de l'analyse de texte sur les modèles prédictifs est l'étape qui se situe entre l'analyse de texte et la prise de décision. Lors des premières implémentations de l'analyse de texte, le déploiement se réduisait à la création de visualisations de relations entre les concepts et parfois à l'intégration de ces visualisationsauxrapports.Cesrapportsdevaientensuiteêtreinterprétés par des responsables avant que tout plan stratégique ou tactiquepuisseêtredéveloppé.Récemment,lesorganisationssesont mises à utiliser la notation par lots (souvent effectuée pendant lesheurescreuses)pourincorporerplusefficacementlesprédictions mises à jour en fonction des modèles d'analyse de texte dans leurs bases de données.

Actuellement, les avancées du traitement de données par ordinateur et des autres technologies ont rendu possible l'analyse d'énormes quantités de données textuelles en quelques heures à peine. Des rapports spécialisés peuvent être créés et orientés en fonction du rôle des individus ou de leur appartenance à un groupe de travail spécifique. Des modèles peuvent également être intégrés aux systèmes pour générer automatiquement des offres de vente, identifier immédiatement les clients solvables, signaler les clients extrêmement positifs ou négatifs ou les commentaires des citoyens ou suggérer des schémas de comportement potentiellement illégal, pour ne citer que quelques exemples.

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Extract concepts

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsBuild categories

Workflow

Prepare textfor analysis

Apply TextLink Analysis

Deploy to predictivemodelsExtract concepts Build categories

Extract conceptsExtract conceptsExtract conceptsExtract concExtract concExtract concepepeptststsAAApppppplllyyy T T Textextext

LinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AAAAnanananalylylylyssssDeploy to predictivective

modelsmodelsBuild categoriesBuild categories

AAAppppppllly y y TTTextextextLinkLinkLink AnalysiAnalysiAnalysiLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalysisAnalysisAnalysisAnalysis

Deploy to predictivetivemodelsmodelsBuild categoriesBuild categoriesPPrerepparare texe textt

forfor analysisanalysisfor analysfor analysfor analysisisis

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysisfor analysisfor analysis

Deploy to predictivectivemodelsmodelsBuild categoriesBuild categories

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrerepparare texe texttforfor analysisanalysisfor analysfor analysfor analysisisis

AAApppppplylyly TTTextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnaly

Deploy to predictivectivemodelsmodels

Extract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsExtract conceptsPPrreparepare texe texttforfor analysisanalysisfor analfor analfor analysysysisisis

AAApppppplllyyy T T TextextextLinkLinkLink AnalyAnalyAnalysssLink AnalysisLink AnalysisLink AnalysisLinkLinkLinkLink AnalyAnalyAnalyAnalyssss Build categoriesBuild categories

Page 22: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

22

Business AnalyticsIBM Software

Lorsque les organisations développent un grand nombre de modèles, ces modèles et les processus qui leur sont associés nécessitent le même genre de gestion attentive que toute autre demande d'actifs importante. Sachant cela, les solutions IBM SPSS ont la capacité de stocker ces actifs de manière centrale et sécurisée et de garantir que des modèles corrects soient utilisés pour l'analyse, et qu'il existe des archives consultables sur qui a accès à chaque modèle, le modifie ou l'applique.

Application de l'analyse de texte au niveau de l'entrepriseLes organisations qui comprennent la valeur de l'analyse de texte commencent généralement par répondre à un problème spécifique au sein de leur entreprise.

Une école ou une université peut effectuer des enquêtes, dans le but •

d'améliorer la satisfaction des étudiants quant aux cours proposés par leur institution et, par là même, d'identifier les changements qui pourraient améliorer la fidélisation des étudiants.Une entreprise qui connaît un taux élevé de départ de ses clients ou •

« attrition », peut analyser les commentaires des clients que contiennent les notes des centres d'appels et comparer les schémas découverts dans ces textes avec les comportements spécifiques des clients, afin que le personnel en contact avec ces derniers puisse reconnaître le moment où un client risque de partir et puisse réagir en conséquence afin de minimiser cette probabilitéUne entreprise pharmaceutique peut évaluer l'efficacité d'un régime de •

traitement en incorporant les commentaires des participants à l'étude qui décrivent comment ils se sentaient avant, pendant et après le traitementUne entreprise dont l'activité repose sur l'évaluation d'énormes •

quantités d'informations textuelles peut utiliser l'analyse de texte pour identifier des tendances ou des schémas, ce qui permettra à son personnel de se concentrer sur les documents les plus importants et améliorer ainsi la productivité.Une agence d'études de marché ou une grande entreprise menant des •

opérations à l'international peut avoir à effectuer des enquêtes dans plus de 20 pays différents. Elles obtiennent des réponses textuelles dans 15 langues différentes et n'ont pas les ressources pour analyser toutes ces langues. Grâce à une traduction avancée, elles pourront effectuer une analyse de sentiments et centraliser tous les résultats en français.Une agence de renseignements peut avoir besoin de consulter des •

documents, des transcriptions téléphoniques ou des e-mails dans plusieurs langues pour découvrir les relations entre les cellules terroristes

Lorsque les organisations ont compris l'utilité de l'analyse de texte, elles souhaitent souvent utiliser cette analyse dans d'autres services ou régions géographiques ou répondre à d'autres problèmes qu'elles rencontrent. Effectuer des analyses de texte IBM SPSS au niveau de l'entreprise peut augmenter de manière significative le retour sur investissement d'une organisation dans l'analyse de texte et les technologies associées. Cela pose quelques difficultés mais avec une solution d'analyse de texte appropriée et des conseils adaptés, ces difficultés peuvent être surmontées.

Effectuer des analyses de texte au niveau de l'entreprise peut augmenter demanièresignificativeleretoursurinvestissement d'une organisation dans l'analyse de texte et les technologies associées.

Page 23: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

23

Business AnalyticsIBM Software

ConclusionLes contenus textuels font partie du défi du traitement des informations que les organisations doivent désormais relever.

Alors que la quantité d'informations disponibles a considérablement augmenté au cours de ces dernières décennies, il est devenu nécessaire de pouvoir rechercher rapidement des informations, de savoir faire le tri entre les informations importantes et les autres et d'être capable de partager les données avec d'autres acteurs afin de bénéficier d'une réactivité tactique et d'une planification stratégique. Savoir maîtriser les nouveaux défis qu'entraîne cette explosion d'informations peut générer des avantages concurrentiels importants pour les entreprises et une augmentation nette de l'efficacité pour les chercheurs et les organisations du service public.

Les organisations qui ont adopté les technologies d'analyse de texte basées sur la linguistique IBM SPSS, dans le but d'utiliser plus efficacement leurs données, ont engendré des bénéfices non négligeables. Un rapport récent de l'entreprise d'analyse indépendante Nucleus Research décrit leurs expériences dans le guide d'utilisation : SPSS Text Mining. Des exemples des bénéfices cités dans ce rapport sont notamment :

En utilisant les données provenant des commentaires des clients, une •

entreprise de télécommunications a vu 51 % de ses clients insatisfaits devenir des promoteurs de l'entreprise (clients très satisfaits) au bout de deux mois seulementLes organisations comme les assurances et les institutions financières •

peuvent exploiter les données de leurs centres d'appels et les combiner avec d'autres informations afin d'identifier des programmes permettant d'améliorer la fidélisation de leurs clients les plus rentablesDans certaines sociétés, les analystes ont pu améliorer leur productivité •

de 50 %Une entreprise du secteur technologique utilise l'analyse de texte IBM •

SPSS pour fournir aux responsables des informations sur une ligne de produits spécifique

Comme le dit un utilisateur interrogé dans le rapport : « Avant, nous devions choisir entre la quantité des recherches et la qualité des recherches. Désormais, nous n'avons plus à choisir puisque nous pouvons proposer les deux. »

Les solutions d'analyse de texte IBM SPSS disposent des meilleures techniques disponibles et de capacités d'adaptabilité et de personnalisation permettant de répondre à tous les besoins d'analyse de texte des organisations. De plus, les solutions utilisent la méthodologie CRISP-MD et disposent d'une architecture ouverte qui permet aux autres systèmes et processus de l'organisation d'avoir accès aux informations obtenues par l'analyse de texte.

En améliorant la pertinence et la précision des modèles prédictifs, les solutions d'analyse de texte IBM SPSS aident les organisations à récolter des bénéfices importants et quantifiables à partir des données textuelles et leur permet de mieux répondre aux nouveaux défis (et nouvelles opportunités) qu'engendrent les vagues d'informations textuelles actuelles et à venir.

Page 24: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

24

Business AnalyticsIBM Software

Les produits IBM SPSS pour les analyses de texteIBM® SPSS® Modeler Premium dispose des meilleures capacités d'analyse de texte du marché et d'interfaces conviviales. Il contient l'utilitaire de data mining IBM® SPSS® Modeler (versions client et serveur). Il utilise des technologies d'analyse de texte basées sur la linguistique qui permettent de découvrir des concepts et des relations dans le texte puis d'appliquer une classification et d'autres techniques statistiques sur ces concepts.

IBM SPSS Modeler Premium peut traiter des textes originaux en anglais, français, néerlandais, allemand, espagnol, italien, portugais et japonais et des textes traduits depuis plus d'une douzaine d'autres langues. IBM SPSS Modeler Premium prend en charge la création de modèles qui combinent des données textuelles ou non structurées avec des données de tableaux ou des données structurées pour prévoir de manière plus précise les conditions, les actions ou les comportements. De plus, les modèles développés avec IBM SPSS Modeler Premium peuvent être intégrés aux systèmes opérationnels à l'aide des applications prédictives IBM SPSS.

IBM SPSS Text Analytics for Surveys est un outil de bureau qui utilise les technologies d'analyse de texte IBM SPSS pour quantifier les réponses d'enquêtes au format de texte libre afin que les opinions et les sentiments puissent être analysés avec d'autres données d'enquêtes. IBM SPSS Text Analytics for Surveys automatise la classification et la catégorisation des concepts textuels tout en permettant aux utilisateurs d'intervenir manuellement pour affiner les résultats. Les résultats peuvent être exportés sous forme de tableaux d'archives ou de dichotomies pour des analyses ultérieures à l'aide du logiciel statistique IBM SPSS.

IBM® SPSS® Collaboration and Deployment Services dispose d'un répertoire centralisé des résultats d'analyses de texte et offre des capacités d'automatisation, de création et de versionnage aux applications utilisant les produits d'analyse de texte IBM SPSS.

Page 25: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

25

Business AnalyticsIBM Software

Annexe A : Une explication de certains termes de l'analyse de texte IBM SPSS

Terme Explication

Blog Site Internet qui fournit des commentaires sur un sujet spécifique. Les lecteurs peuvent ajouter des commentaires, le tout dans un format interactif. Les entrées sont généralement affichées dans l'ordre chronologique inverse. Également connu sous le nom de « Web log ».

RéseauBayésien Modèle graphique de probabilités qui représente un ensemble de variables et leurs indépendances probabilistes. Par exemple, un réseau Bayésien peut représenter les relations probabilistes entre les maladies et les symptômes. En fonction des symptômes, le réseau peut calculer les probabilités de présence de différentes maladies.

Logique/requêtesbooléennes

Terme de la logique mathématique qui indique les propositions liées par les trois opérations logiques fondamentales : et, ou, pas

Terme candidat Terme représentant une classe d'équivalence et conservé pour l' indexation croisée

Catégorie Toute classe fondamentale et distincte à laquelle entités et concepts appartiennent

Classification Regroupementd'unensembled'entitéspartageantcertainespropriétésformellesouexternes

Classification Processus de regroupement d'éléments, tels que des documents, en fonction de leur similarité. L'objectif est de diviser un ensemble de données afin que des enregistrementssimilairesseretrouventdanslemêmegroupe,etafinquelesgroupes soient aussi différents que possible.

Linguistique computationnelle

Branche de la linguistique qui utilise les ordinateurs pour modéliser les systèmes de langue. Elle comprend l'analyse automatisée, le traitement automatique et la simulation informatique des modèles grammaticaux pour la génération et l'analyse des phrases. Son objectif est la modélisation du langage humain en système cognitif.

Concept Idée abstraite ou générique généralisée à partir d'instances particulières

Classe conceptuelle Groupe de concepts similaires distinct des autres groupes

Classe d'équivalence Groupe de termes fléchis représentés par une forme unique. Cette forme, conservée pour l'indexation, s'appelle le terme candidat. Généralement, il s'agit de la forme la plus fréquente d'un terme ou de la forme explicitement définie par l'utilisateur.

Extraction d'événements Processus de recherche d'une occurence de concepts et de relations par le biais de lacompréhensiondusensd'untexte.Cesévénementspeuventêtrel'emploid'unindividu ou une occurence dans le monde réel, telle qu'une fusion ou une acquisition, le déclenchement d'une maladie, une attaque terroriste, etc.

Logique floue Terme dérivé des mathématiques et faisant référence à l'indétermination qu'engendre l'analyse d'une unité ou d'un schéma linguistique

Indexation Processus de recherche des concepts clés dans un ensemble de documents et de développement d'un plan partant de ces concepts aux documents qui les contiennent

Mots clés Termes les plus importants et les plus déterminants d'un ensemble de documents

Analyse sémantique latente

Technique mathématique ou statistique brevetée d'extraction et de représentation de la similarité de la signification de mots et de passages de textes au moyen de l'analyse de grandes quantités de texte à l'aide d'une forme générale d'analyse factorielle

Linguistique Étude des propriétés générales et universelles d'une langue

Morphologie Branche de la grammaire qui étudie la structure ou la forme des mots

Traitement du langage naturel

Analyse et génération informatiques d'un texte de langage naturel. L'objectif est de permettre aux langages naturels de servir de moyen grâce auquel les utilisateurs interagiront avec les systèmes informatiques ou d'objet qu'un système transformera en une forme plus utile.

Précision Mesure de l'efficacité des systèmes de récupération d'informations pour sélectionner desdocumentsrépondantàunerequête

Page 26: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

26

Business AnalyticsIBM Software

Annexe A : Une explication de certains termes de l'analyse de texte IBM SPSS, suite

Taux de rappel Mesure de l'efficacité des systèmes de récupération d'informations pour rechercher des documentsrépondantàunerequête

Pertinence Mesure de la capacité d'un système d'informations à fournir le matériel répondant aux besoins de l'utilisateur

Sémantique Branche majeure de la linguistique consacrée à l'étude de la signification dans le langage

Statistics Un ensemble de méthodes utilisé pour extraire des informations générales à partir de données spécifiques. Ce terme décrit également les valeurs calculées à partir de ces méthodes.

Mot vide a Mot fréquemment utilisé (comme « un » ou « le ») qu'un programme PLN a été programmé pour ignorer, à la fois lors de l'extraction des concepts de documents et lors du développement des index.

Machines à vecteurs

de support

Ensemble de méthodes d'apprentissage supervisées associées, utilisées pour la classification et la régression appartenant à une famille de classificateurs linéaires généralisés. L'une des propriétés particulières des machines à vecteurs de support (SVM)estquecelles-ciréduisentl'erreurdeclassificationempiriqueenmêmetempsqu'elles augmentent la marge géométrique ; c'est pour cette raison qu'on les appelle également des classificateurs de marge maximum.

Synonymie Conditionquifaitqu'untextecontientplusieurstermesayantlamêmesignification

Syntaxe Branche de la grammaire qui s'occupe des règles gouvernant la combinaison des mots dans les phrases

Taxinomie Pratique et science de la classification. Les taxinomies, ou procédés taxinomiques, sont composés d'unités appelées taxons classées dans une structure hiérarchique, et généralementassociéesparsous-type/super-typederelations.

Terme Mot ou expression ayant une signification précise dans certaines utilisations ou qui est spécifique à une science, un art, une profession ou un sujet

Analyse de texte Processus d'extraction automatique des informations dans de grands ensembles de documents

Analyse des liens du

texte

Techniqued'identificationetderépartitiondesconceptspositifsetnégatifs,demêmeque des faits et des événements, dans le corps d'un texte

Thésaurus Ensemble de synonymes et d'antonymes. Les bases de données thésaurus, créées à partir de normes internationales, sont généralement classées de manière hiérarchique, par thème et par sujet. En plaçant chaque terme en contexte, un thésaurus permet à l'utilisateur de pouvoir faire la distinction entre deux termes semblables ayant des significations différentes. Il est généralement utilisé comme base d'indexation du matériel en ligne. Il est également appelé une ontologie.

Wiki Logiciel permettant aux utilisateurs de créer, modifier et lier facilement des pages Internet. Les Wikis sont souvent utilisés pour créer des sites Internet collaboratifs pour la gestion des connaissances.

Page 27: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

27

Business AnalyticsIBM Software

Annexe B : Les algorithmes utilisés pour l'attribution des classes d'équivalenceLa solution d'analyse de texte IBM SPSS utilise les algorithmes suivants pour attribuer des concepts aux classes d'équivalence.

Déclinaison inhibiteurs de la vasopeptidase = inhibiteur de la vasopeptidase

Synonymie Forme complète : une extraction entière est équivalente à une autre

hyperchylomicronémie familiale = déficit familial en lipoprotéine lipase

Composant : deux extractions distinctes sont équivalentes, différence entre les composants mot clé = mot clef

Omission de mots clés ziff-davis inc = ziff davis

Variante géographique shampoing = shampooing

Variante lexicale base-ball = baseball

Caractères en minuscules/majuscules apolipoprotéine A = apolipoprotéine a

Omission / variation des mots vides ulcération de muqueuse = ulcération de la muqueuse éclipses du soleil =

éclipses de soleil

Variantes des séparateurs Les séparateurs peuvent être des espaces, des traits d'union, des agglutinations, des apostrophes ou des points un week-end = un weekend électro-acoustique = électroacoustique Tv Internet = Tv-Internet mot clé = mot-clé base-ball = baseball

Inversion des composants appareil de contrôle médical = appareil médical de contrôle café instantané en poudre = café en poudre instantané zeste râpé d’un citron = zeste de citron râpé

Page 28: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

28

Business AnalyticsIBM Software

Caractères accentués/non accentués Ce phénomène peut être très fréquent dans des langues telles que le français, l'espagnol, l'italien ou le néerlandais são Paulo = sao Paulo evguéni primakov = evgueni primakov évènements du kosovo = événements du kosovo

Générique-spécifique Les extraits regroupés sous un terme normalisé peuvent être considérés comme la recherche du « meilleur descripteur ». Dans certaines applications, des termes spécifiques peuvent être mis en correspondance avec des termes génériques. rouge à lèvres = cosmétique mascara = cosmétique

Vérification de l'orthographe/correspondance floue En fonction de l'omission de voyelles ou de double consonnes, ou d'autres alogorithmes support techinique = support technique support techinique = support technique

Annexe C : Exemples d'analyse de liens du texte IBM SPSSEnquêtes à réponses ouvertes, données de centres d'appels et données d'autres systèmes de gestion de la relation client :À partir de la phrase « J'ai trouvé que le service après-vente était utile, amical et poli », l'analyse des liens du texte mettrait en correspondance : [schéma(0306)] nom = 0306 _opinion_positive valeur = $mExtract @{0,2} ($mSupport|would|could|to) @{0,1} (a|rather|quite|pretty|very)? $mOpinion $SEP? $mOpinion ($SEP|$mCoord){1,2} $mOpinion résultat(1) = $1\t#1\t$6\tPositive résultat(2) = $1\t#1\t$8\tPositive résultat(3) = $1\t#1\t$10\tPositive Cela permet de comprendre que : service après-vente <Unknown> utile <Positive> service après-vente <Unknown> amical <Positive> service après-vente <Unknown> poli <Positive>

À partir de la phrase : « Mon problème n'a pas été résolu », l'analyse des liens du texte mettrait en correspondance :

[schéma(011)] nom = 011 valeur = ($mTopic|$Negative) @{0,1} $mAdvNeg @{0,1} $Positive résultat = $1\t#1\tnot $5\tNegative problème <Negative> non résolu <Negative>

Page 29: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

29

Business AnalyticsIBM Software

Génomique :À partir de la phrase : « les études sur l'inhibiteur C de protéine kinase, calphostine c, ..., », l'analyse des liens du texte mettrait en correspondance :

[schéma(003)] nom = (003) valeur = $Gene $Agent $SEP? $Gene résultat(1) = $4\t#4\t$2\t#2\t$1\t#1

Cela permet de comprendre que : calphostine C <Gene> inhibe <Action> la protéine kinase C <Gene>.

Information commerciale :À partir de la phrase : « IBM Inc. a terminé l'acquisition de SPSS », l'analyse des liens du texte mettrait en correspondance : [schéma(303)] nom = 303 valeur = $Org @{0,1} $mSupport $Action of @{0,2} $Org résultat = $1\t#1\t$4\t#4\t$7\t#7\tcompleted)\tStatus

Cela permet de comprendre que :*ibm inc.* <Organization> achète <Action> spss <Organization> terminé <Status>

Lectures supplémentaires sur l'analyse de texteLivresAndersson, Birger, Maria Bergholtz, & Paul Johannesson (Eds.). Natural Language Processing and Information Systems: 6th International Conference on Applications of Natural Language to Information Systems. NLDB 2002, Stockholm, Suède, 27-28 juin 2002: Revised Papers (Lecture Notes in Computer Science, 2553, Heidelberg: Springer-Verlag, 2002).

Berry, Michael W. & Malu Castellanos (Eds.). Survey of Text Mining II: Clustering, Classification, and Retrieval. London: Springer-Verlag London Ltd., 2008

Feldman, R. & J. Sanger. The Text analytics Handbook. Cambridge, England: Cambridge University Press, 2007.

Jackson, Peter & Isabelle Moulinier. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam: John Benjamins Publishing Company, 2002.

Jurafsky, Daniel & James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Englewood Cliffs, New Jersey: Prentice Hall, 2000.

Manning, Christopher D. & Hinrich Schutze. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 2001.

Page 30: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IBM SPSS Text Analytics

30

Business AnalyticsIBM Software

Sullivan, Dan. Document Warehousing and Text analytics: Techniques for Improving Business Operations, Marketing and Sales. New York: Wiley Computer Publishing, 2001.

Articles et publicationsAnderson Analytics, LLC. Leverage the Voice of Your Customers. Stamford, Conn., Juin 2007.

Grimes, Seth. “A Brief History of Text Analytics,” b-eye-network, 20 octobre 2007.http://www.b-eye-network.com/view/6311

Hearst, Marti A. “Untangling Text Data Mining.” Proceedings of the ACL’99: the 37th Annual Meeting of the Association for Computational Linguistics. College Park: University of Maryland, Juin 1999.

Jouve, O. et al. “Two measures for identifying the perception of risk associated with the introduction of transgenic plants.” Scientometrics, 1999, Vol 44, N°. 3, pp. 401-426.

“Leximappe is dead: long live co-word analysis! Application to identify the main actors within the field of risk assessment through the introduction of transgenic plants.” 1998: International Conference on Science and Technology Indicators: Use of ST indicators for science policy and decision-making. Hinxton (Great Britain).

Martin, E., E. Bremer, MC. Guerin, C. DeSesa, & O. Jouve. “Analysis of Protein-Protein Interactions through Biomedical Literature: Text Mining of Abstracts vs. Text Mining of Full Text Articles.” Knowledge Exploration in Life Science Informatics, International Symposium, KELSI 2004, Milan, Italie, 25-26 novembre 2004, Proceedings.

Nucleus Research. Guidebook: SPSS Text analytics. Document H99. Wellesley, Mass. Décembre 2007.

Autres ressources

Association de la linguistique informatique www.aclweb.org•

Informations sur d'autres groupes effectuant des recherches sur la •

linguistique informatique et le traitement du langage naturel www.dmoz.org/Computers/Artificial_Intelligence/Natural_LanguageSommet sur l'analyse de texte http://www.textanalyticsnews.com/•

Page 31: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

Business AnalyticsIBM Software

31

A propos d’IBM Business AnalyticsLes logiciels IBM Business Analytics fournissent des informations complètes, cohérentes et précises permettant aux décideurs d’améliorer les performances de leur entreprise. Un portefeuille complet de solutions de Business Intelligence, d’Analyse Prédictive, de Performance financière & gestion de la stratégie et d’Applications Analytiques permettent d’avoir une vision claire et précise de la situation actuelle et de prédire les événements futurs. Combinées à de puissantes solutions métiers, les organisations de toute taille peuvent améliorer leur productivité, optimiser leur prise de décisions et délivrer de meilleurs résultats.

Dans ce cadre, les logiciels IBM SPSS Predictive Analytics aident les organisations à prévoir les événements futurs pour une meilleure prise de décisions et donc une amélioration de leurs résultats. Nos clients des secteur privé, secteur public et universitaire se fient à la technologie IBM SPSS et considèrent cette technologie comme un avantage concurrentiel pour : fidéliser sa clientèle, attirer de nouveaux clients, maximiser ses ventes, réduire la fraude, minimiser les risques. En intégrant le logiciel IBM SPSS à leurs opérations quotidiennes, les organisations deviennent des entreprises prédictives capables d’optimiser leur prise de décision afin d’atteindre leurs objectifs et d’obtenir un avantage concurrentiel important. Pour plus de renseignements, visitez le site www.ibm.com/spss/fr.

IBM SPSS Text Analytics

Page 32: Maîtriser les nouveaux défis de l'analyse de texte - … les nouveaux...IBM SPSS Text Analytics 5 Business Analytics IBM Software De plus, l'analyse de texte est d'une valeur inestimable

IMW14301-FRFR-01Business Analytics software

© Copyright IBM Corporation 2010

IBM Corporation Route 100 Somers, NY 10589

Droits restreints pour les utilisateurs du gouvernement américain - l’utilisation, la duplication ou la divulgation sont soumises aux restrictions visées dans le contrat GSA ADP Schedule conclu avec IBM Corp.

Produit aux États-Unis d’Amérique Mai 2010 Tous droits réservés

IBM, le logo d’IBM, ibm.com, WebSphere, InfoSphere et Cognos sont des marques commerciales ou des marques déposées d’International Business Machines Corporation aux États-Unis, dans d’autres pays ou les deux. Si ces termes ou si d’autres termes déposés d’IBM sont représentés pour la première fois dans ce document suivis du symbole de marque déposée (® ou TM), ces symboles indiquent des marques déposées ou de droit commun appartenant à IBM lors de la publication de ce document. Ces marques commerciales doivent également faire l’objet d’un enregistrement ou doivent être des marques de droit commun dans les autres pays. Une liste des marques commerciales actuelles d’IBM est disponible sur Internet sous « Droits d’auteur et marques » à l’adresse www.ibm.com/legal/copytrade.shtml.

SPSS est une marque commerciale de SPSS, Inc., an IBM Company, déposée dans de nombreuses juridictions dans le monde.

Les autres noms d’entreprises, de produits ou de services peuvent être des marques commerciales ou des marques de service d’autres organisations.

Veuillez recycler