STATISTIQUE DESCRIPTIVE

Accompagnement

La statistique descriptive : un outil simple et robuste pour valoriser l’information

La statistique descriptive est donc le quotidien de nos équipes, comme elle peut l’être pour beaucoup de nos clients, qu’il s’agisse des directions Etudes, Marketing, Commerciale, Financière, Informatique… Tous recourent à cette discipline par son utilisation la plus commune : la valorisation de l’information, la communication d’informations stratégiques, le partage de la connaissance.

Et comment ? Tout simplement par des comptages (par exemple, le nombre de clients par gamme de produits), par le calcul d’indicateurs de tendance (par exemple, le CA moyen par segments de clients), par des représentations graphiques de résultats (par exemple, l’évolution du CA sur les 5 dernières années)… La statistique descriptive est en effet incontournable pour présenter de façon synthétique, pertinente et accessible au plus grand nombre des informations qui, à l’origine, sont nombreuses et diffuses. Sous forme de reporting ou tout simplement de présentation Powerpoint, l’utilisation de la statistique descriptive est un véritable outil de valorisation de l’information.

Ainsi, l’une des finalités de la statistique descriptive est de décrire les données, de synthétiser l’information via le calcul d’indicateurs statistiques de type moyenne, médiane, variance, fréquence, pourcentage… ou de représentations graphiques sous forme d’histogrammes, de diagrammes en secteur, de nuages de points…

La statistique descriptive : un outil efficace pour analyser la qualité des données

Mais nos équipes sont amenées à utiliser la statistique descriptive à d’autres fins : mesurer la qualité des données stockées dans les datawarehouse et datamart de nos clients. En effet, une quantité innombrable de données alimente chaque jour les SI, ces données présentant une qualité très hétérogène les rendant plus ou moins exploitables sur le plan décisionnel.

Ainsi, notre travail est de nous assurer de la qualité des données en nous focalisant sur le taux de valeurs manquantes, sur la présence de valeurs extrêmes ou aberrantes, sur la présence de modalités erronées, sur d’éventuels problèmes d’échelle de mesure, de format de données (en particulier sur les dates). L’analyse descriptive des données présentes dans le SI permet de faire un état des lieux de données, d’en mesurer de façon précise la qualité, d’identifier les données exploitables ou non, d’isoler les données nécessitant un traitement particulier de correction ou d’imputation des valeurs manquantes… A l’issue de cette phase, nous sommes effectivement en mesure de dresser un bilan précis sur les données prises une à une et sur leur exploitabilité.

Nous complétons généralement l’analyse des SI par des contrôles de cohérence des données. Pour ce faire, nous croisons les données entre elles au moyen de tableaux de contingence, communément appelés tableaux croisés ; ceux-ci permettent de déceler très rapidement le nombre d’observations atypiques ou erronées. Ces contrôles de cohérence permettent d’identifier des problèmes de saisie, d’alimentation du SI, de calcul dans la chaîne de traitement… A l’issue de ces contrôles, nous sommes de nouveau en mesure de dresser un bilan précis des problèmes rencontrés et de proposer des recommandations en termes de correction et d’exploitation.

La qualité des données peut être une fin en soi : c’est le cas lorsque nous travaillons pour une Direction Informatique dont l’objectif est d’améliorer et de fiabiliser la chaîne d’alimentation et de traitement de la donnée. Mais c’est aussi l’une des premières tâches qu’accomplira le statisticien lorsqu’il réalisera un travail de modélisation ou d’analyse de données plus complexe. Travailler sur des données fiabilisées, c’est garantir la qualité des études statistiques qui en découlent, que les résultats soient probants ou pas. Ce travail constitue une étape incontournable de tous travaux de modélisation et d’analyse de données.

La statistique descriptive : une phase préparatoire incontournable avant modélisation

Ainsi, nous utilisons la statistique descriptive dans la phase préparatoire des données en vue d’études analytiques de type scores, segmentation, modèle de prévision…. En effet, cette phase préparatoire comporte toutes les étapes permettant de construire le jeu de données qui sera utilisé pour la modélisation : extraire, nettoyer, transformer et mettre en forme les données de façon pertinente. Pour ce faire, nous construisons des indicateurs statistiques de type fréquence, pourcentage, moyenne, percentile non seulement pour extraire et nettoyer les données mais aussi et surtout pour transformer les données pour les rendre plus pertinentes (discrétisation des variables, écrêtage des variables, regroupement de modalités…) et construire des données synthétiques agrégées qui deviendront les facteurs explicatifs et prédictifs dans la phase de modélisation.

La statistique descriptive : une aide précieuse pour la modélisation

Dans la phase de modélisation, la statistique descriptive est encore présente : elle est utilisée pour détecter la liaison entre les variables explicatives et la variable à expliquer. A titre d’exemple, un simple tri croisé accompagné d’un test du khi permet d’identifier les variables les plus explicatives du phénomène à modéliser. Par ailleurs, elle nous permet de mesurer la performance prédictive d’un modèle par la construction de la matrice de confusion qui confronte l’observé et le prédit. Nous utilisons également la statistique descriptive pour vérifier la représentativité d’un échantillon lors de la construction des sets d’apprentissage et de test. Les exemples sont nombreux.

La statistique descriptive : un outil indispensable pour promouvoir les résultats de modélisation 

Enfin, dans la phase de diffusion des résultats du modèle, la place de la statistique descriptive a une place importante : il faut en effet rendre les résultats de la modélisation exploitables et compréhensibles par les Directions Métier. C’est donc à la charge du statisticien de vulgariser et de valoriser ses travaux de modélisation par le choix des bons indicateurs statistiques et des représentations graphiques les plus pertinentes, ce qui facilitera l’adhésion des commanditaires.

En résumé…

Ce ne sont là que quelques exemples d’utilisation des statistiques descriptives. Et le spectre est large, ce qui démontre bien l’importance de la statistique descriptive aussi simple soit elle ! Une moyenne, une fréquence, un pourcentage, un histogramme, un nuage de points, ce sont autant d’outils pour nous aider à nous approprier les données, à extraire de l’information, à améliorer la connaissance, à donner un sens aux données, à partager l’information… Et ces tâches sont le quotidien de tous nos consultants et ce, quels que soient le secteur d’activité et la Direction métier pour lesquels nous intervenons. 

Dorothée Delaunay
Directrice de Projet Statistique & Datamining chez Lincoln
Maître de Conférences Associé à l’Université de Rennes I

LINCOLN

A propos de Lincoln

Lincoln, société de services et de conseil en Informatique Décisionnelle et Statistique accompagne depuis plus de 20 ans ses clients sur des problématiques pointues et complémentaires :

  • L’assistance à maîtrise d’ouvrage : audit, étude, spécification, conseil, définition d’architectures…
  • L’assistance à maîtrise d’œuvre : analyse, développement, intégration, automatisation, optimisation, production, TMA, centre de services… pour le déploiement de plateformes décisionnelles d’envergure.
  • La réalisation d’études statistiques et datamining pour les directions marketing, CRM, risques, financières, stratégiques,…
  • Les formations techniques de haut niveau sur les métiers de l’Informatique Décisionnelle et des Etudes Statistiques.

Son pôle Statistiques, composé de plus de 80 statisticiens, intervient à toutes les étapes d’un projet statistique et datamining : du conseil méthodologique à la présentation des études en passant par la mise en œuvre des analyses et le déploiement informatique des solutions. Les problématiques métiers sur lesquelles Lincoln intervient sont principalement :

  • La connaissance, conquête et fidélisation du client : mesure du potentiel, valorisation du client, optimisation de la rentabilité, segmentation, étude de comportement, gestion des actions et campagnes de marketing direct (du ciblage au retour sur investissement)…
  • L’analyse du risque financier : mesure, mise en conformité réglementaire (Bâle II, MiFID…)
  • La performance et tarification produit : pricing, qualification d’offres, analyse d’impacts, études de marché…
  • La prévision : ventes, consommation, audience, parts de marché…
  • La recherche et développement : benchmark d’outils et logiciels, tests de méthodologies en statistique et datamining…

Revenir à la page précédente

Retour en haut