Fouille de données spatiales

Wiki

(Définition communautaire : Wikipédia)

La fouille de données spatiales est la technique d'exploration de données géographiques, qui permet d’identifier des motifs ou des tendances à partir de données textuelles, temporelles ou géométriques. L'analyse spatiale participe avec les systèmes d'information géographique à l'analyse exploratoire des données spatiales. Elle est utilisée dans de très nombreux domaines, pour afficher ou présenter des données scientifiques, sociologiques, médicales, criminologiques, commerciales, de trafic routier, de consommation énergétique en fonction de leur localisation…

 

 

 

Point de vue d'expert

Expert

Uplift Modeling– Comment améliorer l'impact de vos efforts marketing ?

Il y a quelques semaines, ma collègue Audrey nous rappelait que pour optimiser sa dernière campagne électorale, Barak Obama avait fait appel à la technique de l’Uplift ! Eric Siegel, un des papes sur le sujet, nous a raconté comment cela était possible. Décidément, cette campagne américaine 2012 aura été l’illustration que les techniques d’analyse les plus adaptées peuvent grandement faciliter les actions de communication, même celles des plus grands de ce monde !

Plus près de nous, quel responsable marketing n’a pas imaginé obtenir -au moins une fois dans sa carrière- 100% de retours positifs d’une campagne de communication ? S’octroyant au passage les lauriers du succès qui seraient forcément dus, dans ce cas, aux judicieux choix de l’offre et du package promotionnel…

Et le ciblage, non ? Parmi les bons ingrédients à la recette du succès, il est indispensable de passer suffisamment de temps pour identifier la méthode la plus adaptée au contexte proposé. Surtout que l’investissement pour y parvenir n’est pas si grand, comparativement aux sommes dépensées dans les autres postes nécessaires à l’élaboration des campagnes marketing. Une bonne équipe de chargés d’études ou un bon prestataire, un bon outil analytique, des méthodes adaptées, de bonnes données. Alors pourquoi cet objectif s’apparente souvent à la quête du Graal pour nombre d’interlocuteurs, et ne peut s’envisager sans casser d’œufs ?

Les stratégies de ciblage ​​classiques sont efficaces pour identifier les clients intéressés par le produit, l’offre, le service. Mais très souvent, ces clients auraient acheté indépendamment du fait qu'ils aient reçu LA promotion. Dans de tels cas, l'impact différentiel est insignifiant, et le budget marketing aurait pu être dépensé autrement. Pire, l’approche de ciblage classique peut amener certains clients, ayant un profil identique à ceux en appétence avec le produit, à avoir le comportement inverse de celui recherché : ces clients peuvent alors se plaindre, décider de se désabonner ou de ne plus commander et devenir inactifs définitivement.

Depuis quelques temps, il existe un réel engouement de la part de certaines directions marketing pour la méthode de l’Uplift. Net Lift, Réponse incrémentale, True Response Modeling, Uplift, autant de termes (il en existe une quinzaine) utilisés pour décrire une approche similaire. Car l’Uplift Modeling est plus qu’une méthode, elle recouvre plusieurs méthodes possibles.

Cette technique a pourtant déjà plus de 10 ans d’existence. Pourquoi ce regain d’intérêt ? Les modèles incrémentaux sont conçus pour corriger le biais évoqué précédemment, en cherchant à maximiser l'impact marginal, en ciblant les clients indécis qui peuvent être motivés par l’action marketing, et seulement eux. Ce regain d’intérêt s’explique aussi parce que les outils développés aujourd’hui permettent d’appliquer ce type de méthodes plus simplement, plus rapidement, de manière plus aboutie et avec des résultats concluants. Et puis la crise est passée par là, et s’il est possible de mieux cibler pour augmenter les marges sans tout changer, qui n’est pas preneur ?

Pour développer ce type de modèles, il est indispensable de créer des échantillons de contrôle. Cela fait partie des bonnes pratiques de mesure et ciblage en marketing. Ces échantillons permettent de mesurer l’efficacité des actions de marketing relationnel, de détecter leurs éventuels impacts négatifs et d’améliorer ce fameux ciblage. C’est un des prérequis, il y en a d’autres liés à la nature des variables prises en compte et à la volumétrie des données.

Chez SAS, nous suivons cette approche depuis ses débuts, et nous nous sommes entourés de spécialistes pour en parler : Kim Larsen et Terry Woodfield en font partie. Terry est d’ailleurs venu récemment en France pour échanger avec nos consultants. Et nous nous appuyons aussi sur nos partenaires, comme Lincoln qui a exposé l’approche lors du dernier SAS Forum. Pour développer ces modèles, SAS met à disposition de ses utilisateurs différents algorithmes basés sur cette approche, accessibles à travers des macros procédures ou bien notre interface de data mining. Les méthodes disponibles reposent sur la modélisation par régression, ou par les méthodes dites Naïve Bayes ou KNN. Le choix est réel.

Un modèle Uplift donne ses meilleurs résultats lorsque les canaux de contacts sont intrusifs et entraînent un risque fort de mécontentement des personnes sollicitées (via un centre d'appel, un SMS, un emailing). L’approche est intéressante aussi parce qu’elle peut être menée dans différents secteurs d’activité : les télécommunications, les industries du marketing direct, les services financiers etc. Et pour des problématiques variées : up-selling, cross-selling, churn ou fidélisation. Autant de domaines d’application  qui devraient amener à davantage populariser cette technique.

Eric Vessier
Consultant avant-vente, SAS France

Accompagnement

INBOX

Les organisations possèdent de nombreuses problématiques spatiales. Parmi celles-ci, on peut citer la recherche de l’emplacement optimal pour un futur point de vente, la tarification d’une assurance vol en fonction de la région ou l’estimation d’un bien immobilier en prenant en compte les prix sur le marché local.

Les données spatiales, bien que présentant des spécificités, sont alors intégrées dans une démarche analytique classique. Elles sont bien souvent stockées, manipulées et analysées dans des logiciels spécialisés de Système d'information géographique ou SIG.

Donnée spatiale recherche contexte désespérément

Une donnée spatiale, qu’est-ce-que c’est ? A minima, il s’agit d’un élément d’adresse ou d'un couple latitude longitude. Cette donnée de position n’a de valeur qu’une fois rattachée à un référentiel géographique. A quoi me sert la position d’un client si je ne peux rattacher cette position à une ville, un axe routier, un département ?

L’information à tirer d’une donnée spatiale est donc implicite et le statisticien doit donc extraire les mesures pertinentes suivant la problématique abordée.

Les cartes et le territoire

Pour visualiser ces données, un élément vient compléter l’arsenal de représentations graphiques du statisticien : les cartes. De la simple carte choroplète (à régions colorées) à la carte de chaleur en passant par les cartogrammes, les solutions ne manquent pas. 

Une bonne carte vaut mieux qu’un long discours, et permet de fournir un support de communication et d’interprétation pertinent et percutant !

L'analyse spatiale, quand les cartes ne suffisent plus

L'arsenal de l'analyste de données spatiales ne se limite pas à la visualisation sur des cartes, loin de là. Presque chaque algorithme utilisé en fouille de données classiques possède sa version spatiale, un faible temps d'adaptation permettant de maîtriser ces nouvelles variantes. Par exemple :

  • Modèles de régression spatiaux,
  • Clustering spatial,
  • Production de règles d'association spatiales

Nouveaux usages à l’horizon

L’histoire de la fouille de données spatiales ne fait que commencer. A l’ère d’Internet, des navigateurs GPS et des smartphones, la génération de données géographiques ne cesse de croître, permettant de nouveaux usages : publicité géo-ciblée, optimisation du trafic routier, minimisation des coûts logistiques...

De fait, la géolocalisation est omniprésente : bâtiments, téléphones mobiles, containers, colis postaux, trains, avions, tout peut être suivi de nos jours ! Il ne reste plus qu'à trouver comment intégrer la dimension temporelle dans notre analyse spatiale ! Visiter le site de Keyrus

La parole à l'utilisateur

1-800-flowers.com

TAXIS G7 choisit Keyrus pour l'analyse de ses données spatiales

En exploitant les historiques GPS des courses radio effectuées par les taxis affiliés, Keyrus a permis à TAXIS G7 - leader du radio-taxi en France - d'estimer avec précision le tarif des courses au départ ou à destination des aéroports. La vidéo qui illustre cet article décrit cette collaboration, qui a notamment abouti au lancement du service innovant de taxis partagés : WeCab.

Le concept du taxi partagé est simple : en échange d'un prix réduit, le client accepte de partager sa course avec un autre usager. La société de taxi s'engage alors à honorer la course, et se charge de regrouper les réservations de la manière la plus avantageuse. Le tarif forfaitaire doit donc inclure le risque pris par la société qui, elle, doit rémunérer le taxi au tarif affiché par le compteur. Ce risque est variable suivant l'itinéraire : il sera plus probable d'opérer un regroupement pour une destination fréquente à un horaire d'affluence. Le prix de la course sera d'autant plus difficile à estimer que l'itinéraire s'éloigne de cette situation idéale.

A la recherche d'un partenaire pour l'aider à mener à bien ce projet, TAXIS G7 se tourne alors vers Keyrus, société de services qui lui offre les garanties nécessaires. En effet, Keyrus possède les compétences SAS nécessaires à la manipulation des données volumineuses issues des systèmes GPS embarqués dans tous les taxis ainsi qu'un pôle d'expertise en modélisation statistique.

La phase de modélisation prédictive se déroule comme un projet de R&D. Un modèle initial permet de tester un premier jeu d'hypothèses et fournit en résultat de nouvelles intuitions, testées par une nouvelle itération. Le modèle final est ainsi construit « sur-mesure ». L'incorporation des spécificités du métier des radios-taxi dans la technique de régression employée permet d'obtenir des estimations précises et robustes.

Riche en répercussions stratégiques, ce projet a abouti notamment à une étude de rentabilité préalable au lancement de WeCab et contribué au paramétrage optimal de son moteur de regroupements.

Fort de cette réussite, TAXIS G7 envisage une étude des vitesses de circulation des taxis sur certains axes critiques du réseau parisien.

Vidéo

Témoignage Client Taxis G7
"Analyse prédictive et innovation : estimer le tarif d'une course de taxi partagé" from Keyrus on Vimeo

Cours, ateliers et école thématiques

SFDS

L'un des axes de l’action de la SFdS est de favoriser la diffusion des techniques récentes issues de la recherche, afin d’assurer l’interface avec le monde de l’entreprise et des applications. Elle met ainsi en place des cours spécialisés sur des sujets émergents au travers de trois outils : les Ateliers Statistiques, les Journées d'Etude en Statistique, et les écoles thématiques de l’ECAS (European Courses in Advanced Statistics).
Tout d’abord, la SFdS organise depuis onze ans des cours thématiques destinés au monde professionnel : les Ateliers Statistiques de la SFdS. Leur objectif est de faire profiter les statisticiens et les utilisateurs de la statistique de démarches et de méthodes leur permettant d’améliorer leurs connaissances et, de ce fait, leur capacité à résoudre des problèmes posés dans le monde de l’entreprise. Par exemple, le thème de 2013 était l’analyse des séries temporelles. Les trois ateliers ont traité d’une introduction aux traitements paramétriques et non paramétriques à la problématique des big data, en passant par la modélisation multivariée.
Tous les deux ans, la SFdS propose une école résidentielle de haut niveau : les Journées d'Études en Statistique (JES). Leur but est de permettre aux participants de se consacrer pendant une semaine à l'approfondissement d'un thème bien défini, dans un cadre favorisant rencontres et discussions. Les orientations principales sont l’acquisition de notions de base, un zoom sur les développements les plus importants et les plus récents ainsi que les perspectives, sans oublier les applications. Les Journées sont ouvertes à un public de statisticiens non nécessairement spécialistes du sujet traité. L’édition des JES d’octobre 2012 à Fréjus (dans un centre CNRS) a été consacrée aux méthodes robustes, celle de 2014 au choix et agrégation de modèles.

Enfin, pour compléter le dispositif, la SFdS est l’une des sept associations ou sociétés de statistique européennes soutenant le programme européen des cours de l’ECAS qui propose tous les deux ans une semaine de cours de statistique avancée. Le public concerné par ces cours est essentiellement constitué de doctorants et de jeunes chercheurs. La dernière édition a eu lieu en 2013 à Castro Urdiales en Espagne et a porté sur les données fonctionnelles.

Retour en haut