ANALYSE TEXTUELLE

Wiki

(Définition communautaire : Wikipédia)

Mise en avant depuis ces dernières années à travers le Big Data et les données non structurées (principalement textuelles, même si les plus pointilleux souhaitent y incorporer de la voix et de la vidéo), l’analyse des données textuelles se décompose en deux grandes familles : la catégorisation (voir « analyse de données textuelles » dans Wikipédia) et le text mining (voir « fouille de textes » dans Wikipédia).

La catégorisation - analyse de données textuelles 

La catégorisation, comme son nom l’indique permet de classer un document dans une (ou plusieurs) thématique(s). Elle est basée sur le traitement automatique du langage naturel. La classification des documents est pilotée par une taxonomie, définissant les thèmes de classification ainsi que les mots, groupes de mots ou règles linguistiques permettant d’associer cette classification à ce document. A l’évidence, les documents traités doivent être numérisés (un document pouvant être un mail, un pdf, un tweet, une page html….). On classe donc les documents sur un a priori (la taxonomie) issu de l’expérience métier ou des meilleures pratiques d’un secteur d’activités.

Text mining – aussi appelé fouille de textes

Ici la démarche est inverse, on part sans a priori et on va décrire des documents en les regroupant, par les mots ou les groupes de mots les plus discriminants. En fait on applique les techniques de modélisation utilisées sur des valeurs quantitatives telles que la classification hiérarchique. Une fois l’analyse réalisée, les termes identifiés peuvent enrichir et faire évoluer la taxonomie. 

Point de vue d'expert

Expert

« Le poids des mots... le choc des analyses. » 

Si l’on vous dit : clustering, classification supervisée, profiling, prédiction d’une variable cible (dans le but de déterminer qui achète ? qui fraude ? qui part à la concurrence ?), analyses multidimensionnelles, détection des associations, vous pensez sûrement en premier lieu à tirer parti de vos données déjà structurées (variables numériques, variables de classe). Certes, mais que faites-vous de vos données non structurées, notamment textuelles : emails, réclamations clients, réponses à des questions ouvertes dans des questionnaires d’enquêtes, blogs, forums, posts sur des média sociaux ?

Données > Analyse > Restitution

Si la statistique textuelle ne date pas d’hier, elle est aujourd’hui remise sur le devant de la scène à l’heure du Big Data. La promesse du Big Data est bien de traiter de manière conjointe des données structurées et non structurées multilingues, qu’elles soient internes ou issues du web. Nos outils de Text Analytics permettent de collecter ces informations textuelles multilingues, de les explorer, de les structurer, de les indexer de manière automatique et cela sur de larges volumétries. Des tendances, des schémas, des ressentis sont alors mis en évidence dans les données. Les connaissances extraites peuvent ensuite être combinées avec des données déjà structurées et venir enrichir vos reportings et vos analyses prédictives.

Promesse tenue donc !

Comment ? Me direz-vous …

Grâce à une approche hybride : la combinaison du Traitement du Langage Naturel, du Data Mining, et du Text Mining.

Dans quel but ?

A suivre dans le sujet du mois de Mars (Modélisation Prédictive) …

Pas d’effet boîte noire ici !

Les algorithmes et méthodes utilisées par le moteur linguistique sont clairement détaillés: modèle Bayésien, Séparateurs à Vaste Marge, Décomposition en Valeur Singulière, Classification Hiérarchique … La performance des modèles s’évalue toujours à coup d’indicateurs statistiques : taux de précision, taux de rappel,  tests d’ajustement du modèle, degré de confiance accordé à l’hypothèse … et surtout les résultats obtenus sont facilement interprétables.

Du rôle de l’expert métier

Il faut souligner que ces techniques d’automatisation, aussi avancées soient-elles, ne remplacent pas l’expertise métier mais la complètent et l’enrichissent.

L’expert métier reste bien au centre du dispositif, mieux, il va travailler en collaboration avec le système pour lui permettre de s’améliorer pour répondre le mieux possible à la problématique métier posée.

C’est l’objet des méthodes dites d’Active Learning. Ces techniques, donnent la possibilité à l’expert métier de pouvoir interagir avec l’algorithme d’apprentissage automatique (Machine Learning) et ainsi  garder la main sur ses modèles dans un objectif de coopération. Le système découvre automatiquement de nouvelles thématiques enfouies dans les textes, et l’utilisateur peut modifier les règles générées et ensuite les réinjecter dans le système : l’expert continue de guider le système pour une solution optimale.

Bref …

Aujourd’hui que vous soyez chargés d’études, statisticiens, data miners, data scientists, vous avez la possibilité d’utiliser dans vos modélisations vos données textuelles, alors pourquoi s’en priver ?

Téléchargez le livre blanc sur la gestion des données (PDF)

Accompagnement

INBOX

Analyse textuelle, médias sociaux et marketing – les enseignements d’une expérience pilote

Par Stéphane Amarsy, Directeur Général d’Inbox

Les techniques d’analyse textuelle ne sont pas nouvelles, mais l’avènement des médias sociaux les a rendues incontournables. Désormais les entreprises voient plus concrètement à quoi le text mining peut leur servir, et les applications potentielles semblent infinies dans un contexte de « Big Data ». Pour autant, avant de faire miroiter un « eldorado des données non-structurées », il me semble essentiel de revenir à quelques considérations de bon sens.

L’analyse textuelle pour être à l’écoute des médias sociaux

Quand les blogs et autres médias sociaux sont apparus, le buzz a été tel que les entreprises se sont précipitées : il fallait y être, ouvrir sa page facebook ou son compte twitter. Pour quoi faire ? On verrait bien. Avec le recul, on peut voir que les entreprises et les marques ont toutes considéré le sujet comme relevant de la seule communication. On y fait de la publicité, on y calcule son e-réputation (avec l’analyse textuelle), on y fait de la publicité… Mais en réalité, les membres des réseaux sociaux ne sont pas une audience. Ils sont actifs, émettent autant de messages qu’ils en reçoivent, et n’hésitent pas à poster leurs doléances sur le compte facebook d’une marque en délaissant les canaux classiques du service client.
Dès lors, il serait plus pertinent de considérer les médias sociaux comme un canal supplémentaire dans la relation client, et appliquer des raisonnements de type marketing, en observant et en cherchant à comprendre avant d’agir. C’est la base du CRM – et c’est là que l’analyse textuelle peu s’avérer pleinement utile.

Lire la suite de l'article

Côté enseignement

Hurwitz & Associates publie le « Text Analytics Victory Index 2013 »

L’analyste Hurwitz & Associates a récemment rendue publique l’édition 2013 du Victory Index dédié à l’analyse textuelle.
Ce document présente les résultats de l’analyse approfondie des 10 principaux éditeurs sur le marché, ainsi que les tendances actuelles de l’analyse textuelle.

On y apprend entre autres que :

Les éditeurs de solutions pour l’analyse textuelle ont été finement audités selon quatre axes : leur vision, leur pérennité, la fiabilité de leurs solutions, et la valeur dégagée par leurs clients.

L’étude réalisée a placé SAS dans les éditeurs en tête du classement, avec le meilleur score de satisfaction clients, mais aussi l’étendue et le détail des fonctionnalités de son offre, la prise en charge de l’ontologie et de la taxinomie, sa performance et son ROI rapide.

Consulter le rapport (PDF)

Lire le communiqué de presse SAS

Le Club par Business Analytics Info

Data Scientist, un métier en or ?

Le débat, organisé le 22 janvier 2013 par « Le Club par Business Analytics Info », réunissait des intervenants de différents horizons et portait sur les nouveaux métiers et les nouveaux besoins de compétences nés de l’économie numérique.

Les immenses quantités de données qui ont afflué vers les entreprises sont devenues une mine d’or qu’il s’agit d’exploiter. Le phénomène des Big Data devrait créer d’ici 2015, 4,4 millions d’emplois selon Gartner. Entre salaires mirobolants et pénurie de talents, qu’en est-il réellement ? Et face à  la fuite de cerveaux des filières scientifiques vers le monde de la finance et de l’assurance, comment les entreprises peuvent-elles séduire ces « data scientists » pour mettre leurs talents au profit de cette nouvelle économie ?

Aujourd’hui, la donnée est au cœur des activités des organisations, quel que soit leur secteur. Mais l’un des aspects les plus « révolutionnaires » des Big Data réside dans la capacité d’expérimentation qu’elles offrent aux entreprises, pour mieux comprendre et envisager l’avenir sur la base d’éléments factuels.
Le Data Scientist doit en conséquence devenir un chef d’orchestre jonglant entre les besoins et stratégies métiers de l’entreprise, et la capacité à analyser et interpréter les informations. Il existe cependant un déséquilibre entre la maturité des offres technologiques et la disponibilité des savoir-faire. Les experts métiers capables d’analyser une problématique au moyen d’une véritable démarche scientifique, et ce, avant même d’envisager quels outils utiliser, sont encore rares.
Les entreprises cherchent des profils de culture scientifique capables d’appréhender des problématiques métiers dans le cadre d’une démarche d’expérimentation. Il est donc urgent de faire le lien entre les problématiques métiers ou fonctionnelles et les problématiques techniques. L’information doit pouvoir être traitée en tant que telle, avec une organisation spécifique à imaginer en fonction des différents usages (marketing, logistique, etc.).

Jean-Michel POGGI, Enseignant-Chercheur à l’Université Paris Descartes et Président de la Société Française de Statistique ; Olivier LALLEMENT, Manager, Technology Advisory chez Deloitte ; Nicolas GIARD, Enseignant à SKEMA Business School (Lille) et Directeur général de Conexance et Serge BOULET, Directeur marketing & communication de SAS, dans un débat animé par Jacques FROISSANT, fondateur & CEO, Altaïde, pionnier du recrutement 2.0. Lire le compte rendu du débat

Vidéo

Le Club par Business Analytics Info :
Data Scientist, un métier en or ?

Les Rendez-vous Méthodes et Logiciels

SFDS

Les logiciels sont un élément incontournable de la statistique, qu'elle soit appliquée (dans l'entreprise, l’industrie ou le secteur public) ou plus académique (recherche scientifique). Logiciels et recherche théorique ou méthodologique se nourrissent l'un l'autre, il suffit pour s’en convaincre de regarder le nombre de publications qui illustrent leurs résultats par des simulations numériques, et l'intégration en retour dans les logiciels de méthodes innovantes ayant atteint la maturité. Ainsi, la Société Française de Statistique (SFdS) propose des rencontres qui impliquent les logiciels comme un élément constitutif du savoir statistique.

Les Rendez-vous SFdS Méthodes et Logiciels ont pour objectifs d’intensifier les liens entre les mondes académique, industriel et éditeurs de logiciels et de montrer l'apport des logiciels en se centrant autour d’une thématique, en fournissant des points de repères sur le thème scientifique abordé, un panorama de l'offre logicielle, des axes de développement et des exemples d'applications traitées par différents logiciels.

Comme il est plus parlant de prendre un exemple, la première séance de ces rendez-vous trisannuels était dédiée au géomarketing, qui permet l'optimisation des réseaux de distribution et utilise tant des méthodes statistiques classiques que des méthodes plus spécifiques, par exemple pour la modélisation des zones de chalandise. Venant d'horizons variés, les orateurs ont tracé les contours du géomarketing et dressé un panorama par la présentation de méthodes, d'applications et d'expériences utilisant différents logiciels selon le programme suivant : Panorama introductif (Olivier Auliard, Cap Gemini), L’analyse exploratoire de données spatiales : GeoXp et Géomarketing (Christine Thomas-Agnan, Université Toulouse 1), Zoom sur une méthode : Modélisation des zones de chalandise (Paul Archambault, Pitney-Bowes), Zoom sur une application : Estimation du potentiel d'un site (Sophie Blanchet, Asterop) et enfin un Témoignage : Une expérience dans le domaine bancaire (Pierre Duché, Société Générale) avant Une synthèse (Jean-Jacques Jesua, La Poste).

Les Rendez-vous SFdS Méthodes et Logiciels sont un lieu d'échange où se vit une coopération équilibrée entre méthodes et logiciels. Ils s'adressent à toute personne désireuse de découvrir ou mettre à jour ses connaissances sur un sujet donné, et intéressée par l'illustration des méthodes au travers des logiciels.

Retour en haut