Wiki

(Définition communautaire : Wikipedia)

Statistique et Big Data

Les big data, littéralement les grosses données, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. L'on parle aussi de datamasse en français par similitude avec la biomasse.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions politiques ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité.

Le phénomène big data est considéré comme l'un des grands défis informatiques de la décennie 2010-2020. Il engendre une dynamique importante tant par l'administration, que par les spécialistes sur le terrain des technologies ou des usages.

Les Big Data permettent d’imaginer aujourd’hui des applications qui étaient impossibles à concrétiser auparavant, du fait des fameux « 3V » de Gartner : des volumes trop importants pour être analysés dans leur ensemble, obligeant à exploiter des échantillons pas toujours représentatifs ; une variété empêchant toute modélisation rapide ; et des vitesses d’actualisation n’offrant pas le temps d’analyser les données au moment voulu.

Aux 3V de Gartner, SAS en ajoute un quatrième – la valeur que l’entreprise peut tirer de ces données. Quelles que soient la vitesse, la volumétrie et la variété de ces données, les entreprises doivent être en mesure de tirer parti de la valeur des informations stockées en masse grâce à une approche analytique des Big Data – c’est ce que l’on appelle les « Big Analytics ».

Point de vue d'expert

Statistique et Big Data

C’est en 2008 que Gartner a utilisé pour la première fois l’expression « Big Data », en référence à l’explosion des données numériques. Certains ont parlé de déluge de données. Quelle que soit la métaphore, le phénomène est réel. Il impacte notre façon de travailler.

01net a publié il y a quelques semaines un article qui pose un point essentiel au sujet du Big Data : comment concilier une croissance exponentielle des volumétries et des flux de données avec une lecture habituelle qui fixe comme prérequis d’avoir des données homogènes, choisies et en quantités limitées ?
Le conflit est réel, et il amène à remettre en cause les environnements technologiques et les aspects fonctionnels. Qui se sent vraiment concerné ? Cette problématique est-elle vraiment fondée ? Mesure-t-on déjà les conséquences d’une inaction et comment s’équiper pour aborder ce sujet sereinement ?

Réalité ou fiction ?

Imaginer tout connaître sur ce qui nous entoure relève du fantasme. Le film « Minority Report » de Steven Spielberg, inspiré d’une nouvelle de Philip K. Dick, a souvent été évoqué pour illustrer ce que peut apporter l’analyse de grands volumes de données complexes pour résoudre les énigmes posées. Isaac Asimov, un des auteurs de science-fiction les plus célèbres imaginait dans les années 40 une science fictive, la psychohistoire, capable de prédire l’avenir de l’humanité à partir des connaissances de la psychologie humaine, des phénomènes sociaux et des statistiques. C’est passionnant à lire.

La réalité rejoint parfois ces scénarios issus de l’imagination des plus grands : 2 chercheurs ont prévu l’épidémie de choléra qui a touché Cuba en 2012, en compilant pendant un mois et sur 30 ordinateurs l’intégralité des articles du « New York Times », et en utilisant les ressources de LinkedData, qui met automatiquement en relation des centaines de sources d’informations et trouve des connexions entre des milliards de données. D’autres chercheurs ont montré 2 ans auparavant qu’on pouvait prévoir avec plusieurs jours d’avance les cours de la bourse…en analysant les termes employés dans des millions de tweets.

Travailler à partir de gros volumes de données permet de se focaliser sur des événements précis en explorant des ressources variées, sans lien direct entre elles. Nous sommes loin de tout expliquer, nous n’y arriverons jamais. Maintenant, ce qui est le plus attirant dans l’émergence du Big Data, c’est de pourvoir repousser les limites qui étaient fixées il y a seulement quelques années.

Pourquoi le traitement des Big Data est possible (et intéressant) aujourd’hui ?

Ce scénario est possible d’abord parce que la puissance de traitement informatique coûte nettement moins qu’avant. Les ressources machines ont changé de dimension : elles sont mutualisées, virtualisées, voire accessibles « dans les nuages ». 

De plus en plus de données sont numérisées, y compris sur nos comportements et la plupart des objets que nous manipulons, grâce à plus de capteurs, plus de mesures, plus régulières et de différentes formes, et plus rapidement accessibles. Certaines de ces données sont publiques, donc disponibles sur Internet. La confidentialité tend fortement à diminuer et l’accès est facilité. A tort  ou à raison.
Les sources d’information se diversifient. Elles s’enrichissent par interactivité, chacun devenant lui-même acteur de cet enrichissement. Openstreetmap donne un exemple de données collectées par chacun d’entre nous et rendues accessibles par des outils simples.

A partir d’Internet et du e-commerce, avec de nouveaux algorithmes, des start-ups utilisent la matière grise des instituts, écoles et universités en pointe (telles que le MIT, Stanford) pour accélérer ce type d’exploration. Et ça marche.

Comme nous voulons tout, tout de suite, et de la meilleure façon possible, l’exigence de l’information obtenue en temps réel s’impose de plus en plus, même dans notre quotidien. Pour y répondre au mieux, c’est-à-dire sans détérioration de la qualité, il est nécessaire de récupérer un maximum d’information, de recouper, analyser et restituer dans des temps record.

Et les modèles économiques porteurs il y a encore quelques années se doivent d’évoluer. Il y a un marché très « juteux » ou les principaux éditeurs du marché ont des parts à prendre…ou à défendre. Les investissements sont donc nombreux et variés. De nouveaux acteurs arrivent, qui ne respectent pas forcément les voies tracées par leurs prédécesseurs. Yahoo a créé Hadoop, Google et Amazon ont contribué à son succès.

Le renouveau de la statistique ?

A travers le Big Data, certains sont frappés par la capacité prédictive des applications qui l’entourent. En effet, la révolution Big Data permet –entre autres- de « réveiller » des approches de modélisation découvertes il y a 5, 10, 20 ans ou plus encore : les modèles auto apprenants n’ont rien de nouveaux, les mesures de corrélations statistiques datent du XIXe siècle, les premiers travaux sur les réseaux neuronaux remontent aux années 50, etc. On associe souvent le Big Data à l’analyse des réseaux sociaux. Elle peut aider à la prédiction. Ces approches sont déjà utilisées dans plusieurs secteurs d’activité mais souvent par des utilisateurs peu visibles. Pour pas mal de statisticiens, il y a donc un sentiment de redécouverte de certaines techniques.

Le métier de Data Scientist est plein d’avenir. Tout le monde en parle depuis qu’il a été présenté comme le métier le plus sexy du XXIe siècle par l’Harward Business Review. Merci le Big Data !

C’est qu’il reste de quoi faire. David L. Donoho, professeur de statistiques à Stanford, souligne l’incapacité de la plupart des experts à anticiper les grandes crises que le monde a connu, de la chute de l’empire soviétique au printemps arabe en passant par la crise financière de ces dernières années ou la grippe H1N1 qui finalement a provoqué moins de morts qu’une épidémie de grippe banale. Le Big Data permettra peut-être de réduire le nombre de ces loupés. Ou alors de changer d’experts ?

Le positionnement de SAS

Avec SAS, Visual Analytics et l’arrivée de la version 9.4 de SAS, vous avez la possibilité d’accéder facilement aux nouvelles fonctionnalités orientées Big Data. L’offre SAS High Performance développée pour être utilisable dans un environnement dédié est fonctionnellement et en partie exploitable avec votre architecture actuelle. L’aspect Big Data peut paraître très technique pour certains utilisateurs et SAS sait y répondre (le Grid et l’offre In-Database sont compris dans High Performance Analytics).

Nous pouvons également vous faire part de nos références clients, telles que Macy’s qui optimise 270 millions de combinaisons de prix et réduit les temps d’exécution passant de 30 à 2 heures de traitement, ou d’une banque internationale qui est passée de 5 heures à 3 minutes de traitement tout en multipliant la complexité de ces algorithmes par 5 et le nombre d’itérations par 150.
Nous n’avançons pas seuls dans cette histoire, nous sommes accompagnés par nos partenaires les plus avancés, et vous retrouverez d’ailleurs ce mois-ci à titre d’illustration les conseils et retours d’expérience de Soft Computing.

SAS a toujours été ouvert au monde universitaire et celui des écoles. La formation de Data Scientist peut être complétée par un passage au Spring Campus, initiative lancée par SAS en 2012, pour enrichir le profil de nouveaux experts.

En savoir plus sur :

Accompagnement

Lincoln

Big data : ses applications et ses pièges

Big data : pendant que tout le monde parle, voici maintenant plus de 3 ans que nous le pratiquons au quotidien sur des applications concrètes. Notre expérience de plusieurs dizaines d’années hommes sur des projets concrets et nos investissements en R&D nous permettent aujourd’hui de tirer quelques leçons résumées ici. Par Gilles Venturi, Directeur Général de Soft Computing.

Beaucoup de fumée

Le thème Big Data fait clairement le buzz aujourd’hui. Gartner a inventé le « Hype Cycle », une sorte de courbe de vie des nouvelles technologies. Le principe en est qu’au fil du temps, se succèdent des phases distinctes : apparition de la technologie, pic des attentes, vallée des désillusions, collines de l’assimilation et enfin plateau de l’assimilation. Selon ce prisme, le Big Data a atteint mi 2013 un niveau quasi-paroxysmique. A ce niveau, la technologie ne créé plus des attentes mais carrément des fantasmes, exacerbés par des éditeurs, prestataires, constructeurs qui se ruent sur le concept comme des abeilles sur un pot de miel.
En tant qu’acteur de référence du CRM, Soft Computing a depuis 10 ans accumulé un vécu incomparable : analyse des logs web pour un FAI en 2003, outsourcing de l’ensemble des données sur 5 ans des 10 millions de clients d’une banque dès 2005, recommandations temps réel sur un des 10 premiers sites e-commerce français en 2007, détection des leaders d’opinion dans un cercle de relations pour un opérateur mobile en 2008, analyse des sentiments des clientes d’une chaîne de boutique de mode en 2010, outsourcing de la connaissance client sur plusieurs dizaines de téraoctets de tickets dans la grande distribution en 2012. Bref, nous frôlons en permanence les limites des technologies en matière de traitement et de stockage de haute volumétrie. Nous avons également un positionnement privilégié, de par notre indépendance. Ainsi, nous avons participé en 2012 et 2013 à des projets Big Data sur les principales technologies du domaine : Hadoop, Exadata, Teradata, Netezza… Ce vécu tant métier que technique nous donne un certain recul pour partager certaines de nos bonnes pratiques et de nos retours d’expérience.

Focus sur les applications marketing

Le Big Data couvre de nombreux domaines d’applications : smartgrids, villes intelligentes, détection de fraude, trading haute fréquence… Nous nous limiterons ici aux applications marketing qui représentent la très grande majorité de nos interventions à ce jour. Dans ce domaine, avec ou sans nouvelle technologie, la problématique est globalement toujours la même : optimiser le ROI de l’acquisition, du développement et de la fidélité des clients. A ce jeu, trois best-sellers se partagent le podium des applications du Big data : weblogs et parcours clients, écoute active des réseaux sociaux et recommandations personnalisées en temps réel.

Lire l'article

Côté enseignement

SAS SPRING CAMPUS 2014

SAS Spring Campus, Une formation de Data Scientists

Une passerelle entre enseignement supérieur et recrutement des entreprises : un mois de formation à l'analytique du Big Data suivi d'un stage de fin d'étude garanti. Les jeunes diplômés ont jusqu'au 3 novembre 2014 à minuit pour se porter candidats au Spring Campus 2015 ; la promotion 2014 arrive quant à elle sur le marché du travail.

La prochaine édition de SAS Spring Campus est d'ores et déjà en préparation. Du 30 mars au 30 avril 2015, SAS offrira à une vingtaine de futurs jeunes diplômés un mois de cours aux techniques et logiciels analytiques, qui font la valeur du Data Scientist.Visiter le site de SAS Spring Campus

Horizons de la statistique

SFDS

Pour clore l'année internationale de la statistique, la Société Française de Statistique (SFdS) a organisé le mardi 21 janvier 2014, à l’Institut Henri Poincaré, une manifestation intitulée "Horizons de la statistique".
L’objectif de cette journée était de discuter des problématiques et des enjeux pour les économies et les sociétés de demain auxquels seront confrontés les statisticiens dans les années à venir. Pour ce faire, la SFdS a choisi de donner la parole à des scientifiques, des intellectuels et des représentants du monde de l’entreprise qui apporteront chacun leur éclairage et leur vision de l’avenir. Cet événement, que la SFdS souhaite original et marquant, s’adresse à un public très large. Le programme des conférences est le suivant :
Cédric Villani (Directeur de l’IHP et Médaille Fields 2010) pour l’ouverture du colloque
Emmanuel Candès (Statisticien, Stanford University)
Valérie Masson-Delmotte (Paléoclimatologue, CEA Saclay)
Robert N. Rodriguez (Senior Director, SAS Institute)
Jean-Luc Starck (Astrophysicien, CEA Saclay)
Emmanuel Todd (Démographe, INED) 

Chacune des interventions est disponible en vidéo sur le site de l’Institut Poincaré.

Quelques mots sur les invités : les travaux d’Emmanuel Candès avec Terence Tao dans le domaine du compressed sensing ont eu un impact considérable pour le traitement de données en grande dimension. Valérie Masson-Delmotte paléoclimatologue, cherche à caractériser et comprendre la dynamique du climat et du cycle de l’eau, en tirant parti des enregistrements issus d’archives naturelles du climat.
Jean-Luc Starck est spécialiste du traitement statistique des données astrophysiques pour des applications en cosmologie. Enfin, la conférence d'Emmanuel Todd historien, anthropologue, démographe, sociologue et essayiste apporte l’éclairage des sciences humaines et sociales au colloque.

Ce billet, accueilli par SAS, nous fournit l’occasion de remercier cet éditeur de son soutien en particulier pour cette manifestation, nous permettant ainsi d’écouter la conférence de Robert N. Rodriguez, Senior Director du Statistical Research & Development chez SAS Institute mais aussi Fellow de l’American Statistical Association (ASA, l’homologue américain de la SFdS), dont il a été le président en 2012.

Retour en haut