STATISTIQUE DESCRIPTIVE

Wiki

(Définition communautaire : Wikipedia)

Statistique descriptive

La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour exposer un phénomène (par exemple le chômage) décrit par un ensemble relativement important de données (toutes les données individuelles recensées dans les agences de l’emploi). Elle comprend deux familles d’indicateurs statistiques, les indicateurs de tendances comme la moyenne et médiane, et ceux de dispersion qui décrivent l’éparpillement autour de cette valeur centrale comme la variance, l’étendue, les espaces interquartiles. Les indicateurs de dispersion ne sont pas toujours simples d’accès et le plus aisé est d’utiliser la représentation graphique pour vulgariser l’information. 

Représentation graphique

Indissociables de la statistique descriptive, les graphiques sont souvent une synthèse plus accessible et parlante. La représentation d’une donnée peut être réalisée à travers une boîte à moustache (ou boîte de Tukey), ou encore deux variables peuvent se résumer à une courbe ou un nuage de points. Au-delà des histogrammes et des graphiques circulaires, les cartes de chaleur

Lire la suite de l'article

Vidéo

Improving Human Welfare in 2013 International Year of Statistics

Point de vue d'expert

Ca y est je suis expert et je donne mon point de vue !

Les statistiques descriptives, j'aurais souhaité un sujet un peu plus flatteur. Etre le spécialiste de la moyenne et de l'écart-type, franchement ce n'est pas tout à fait mon idéal de carrière. Même si Hal Ronald Varian (Chief Economist chez Google) a décrété que Statisticien sera le job le plus sexy des 10 ans à venir (5 août 2009 New York Times).

Ces statistiques sont simplissimes à calculer, les tendances centrales (moyenne, médiane…) ou les dispersions (variance, écart-type, skewness…) ne posent aucun problème de réalisation dans les entreprises. Néanmoins les comptages (car la base de la statistique descriptive repose sur le dénombrement et la somme) posent de vrais problèmes. Pensons à la mesure du chômage en France, la valeur est publiée avec un bon mois de décalage alors qu'on pourrait supposer qu'à l'heure du big data, on soit capable de compter quelques millions d'unités de façon extrêmement rapide.

Le rôle du statisticien et/ou du Data Scientist suivant la taille des organisations ne se borne pas à la production du calcul. En amont il doit s'assurer de la qualité de la donnée et de la pertinence du résultat (résumer un phénomène avec un ou deux chiffres !). On observe les différentes étapes :

  1. Accès aux données. Garant de la donnée, la DSI se doit d'opérer des mécanismes de nettoyage (contrôles unitaires), et de gestion du sens de la donnée (Master Data Management). 
  2. Contrôle des données. Bien que déjà contrôlées, les données sont revisitées. La confiance n'exclut pas le contrôle : contrôle de cohérence multiple, tableaux croisés, évolution chronologique des données sont les outils permettant de s'assurer de la cohérence de la chaine de traitement entre les données à l'origine et les tables de données permettant le calcul. 
  3. Calcul (partie simplissime).
  4. Diffusion. Graphiques ou textuelles, brutes ou interprétées, les statistiques descriptives sont alors utilisées et manipulées par l'entreprise et redeviennent données de base pour d'autres calculs ou traitements.

Elles ne sont que des instantanés d'une réalité en mouvement. Ces données n'ont de sens qu'associées à une date. C'est le premier pas vers les séries chronologiques. Mais c'est un autre sujet, rendez-vous en juin !

Téléchargez le livre blanc sur la gestion des données (PDF)

 

Accompagnement

Lincoln

La statistique descriptive : un outil simple et robuste pour valoriser l'information

Dorothée Delaunay
Directrice de Projet Statistique & Datamining chez Lincoln Maître de Conférences Associé à l'Université de Rennes I

La statistique descriptive est le quotidien de nos équipes, comme elle peut l'être pour beaucoup de nos clients, qu'il s'agisse des directions Etudes, Marketing, Commerciale, Financière, Informatique… Tous recourent à cette discipline par son utilisation la plus commune : la valorisation de l'information, la communication d'informations stratégiques, le partage de la connaissance.

Et comment ? Tout simplement par des comptages (par exemple, le nombre de clients par gamme de produits), par le calcul d'indicateurs de tendance (par exemple, le CA moyen par segments de clients), par des représentations graphiques de résultats (par exemple, l'évolution du CA sur les 5 dernières années)… La statistique descriptive est en effet incontournable pour présenter de façon synthétique, pertinente et accessible au plus grand nombre des informations qui, à l'origine, sont nombreuses et diffuses. Sous forme de reporting ou tout simplement de présentation Powerpoint, l'utilisation de la statistique descriptive est un véritable outil de valorisation de l'information.

Ainsi, l'une des finalités de la statistique descriptive est de décrire les données, de synthétiser l'information via le calcul d'indicateurs statistiques de type moyenne, médiane, variance, fréquence, pourcentage… ou de représentations graphiques sous forme d'histogrammes, de diagrammes en secteur, de nuages de points…

Lire la suite de l'article

Côté enseignement

“The Greatest Value Of A Picture Is When It Forces Us To Notice What We Never Expected To See.”

(John W. Tukey, Exploratory Data Analysis 1977).

Cette phrase du statisticien John W. Tukey (dont la représentation la plus connue a pour nom « la boite à moustaches » en France) exprime bien le défi de faciliter l’approche de l’information par une représentation graphique.

Ce mois-çi, nous avons choisi de mettre à l’honneur Lora D. Delwiche (University of California, Davis, CA) et Susan J. Slaughter ( Avocet Solutions, Davis, CA) dont la publication réalisée à SAS Global Forum en 2012, expose les techniques de programmation pour produire des graphiques alliant ergonomie et justesse.

Bonne lecture.

Graphing Made Easy with SG Procedures (PDF)

Retour en haut