Le Big Data : ça vous dit quelque chose ?

A moins d’avoir passé ces dernières années dans une grotte, vous avez forcément entendu parler du “Big Data” : Google qui parcourt des milliards de pages web pour répondre instantanément à votre recherche, le CERN qui analyse des petaoctets d’informations issues de son grand collisionneur, ou encore IBM et son IAWatson” utilisée notamment dans les hôpitaux pour accompagner les cancérologues dans leurs décisions de traitement.

BD-1

Avec lui arrivent de nombreuses injonctions (la règle des 3V : volume, vitesse, variété) et surtout tout un tas de termes barbares qui, si vous n’êtes pas adeptes du “culte de la data”, vous semblent souvent un peu ésotériques : Hadoop, MapReduce, Spark, ElasticSearch, Machine Learning, NoSQL, …

Et en français, ça donne quoi ?

Pour faire simple, voici un petit lexique de différents termes autour du Big Data :

  • Hadoop / Spark : Technologies permettant l’accès et le traitement, facilités et optimisés, de gros volumes de données.
  • MapReduce : Méthodologie (et aussi outil) permettant d’effectuer des calculs parallèles et distribués sur des gros volumes de données.
  • Cloud : Technologie permettant d’accéder à des serveurs localisés à distance, pour y effectuer diverses actions : stocker des données, exécuter des scripts, etc.
  • ElasticSearch : Solution fournissant un moteur de recherche indexant un grand nombre de formats de données automatiquement pour y effectuer des recherches.
  • API : Application Programming Interface = Interface de programmation permettant d’accéder à une application ou à un programme. Par exemple, des jeux de données peuvent être rendus accessibles ainsi.
  • NoSQL : Type de bases de données ayant une structure différente des bases de données relationnelles “classiques” type SQL. Exemples : MongoDB, Cassandra, Neo4j, CouchBase. Intérêt : permet le stockage et l’accès à de gros volumes de données de manière (en théorie du moins) optimisée.
  • Machine Learning : Discipline mettant en oeuvre des algorithmes mathématiques/statistiques permettant l’extraction et/ou la prédiction d’informations depuis des données, et cela de manière automatisée.
  • DataVisualisation (ou “DataViz”) : Technologies, méthodes, outils permettant la réprésentation visuelle des données ou informations extraites de celles-ci, dans le but de faciliter leur compréhension.
  • DMP – Data Management Platform : Outil permettant à une entreprise de regrouper l’ensemble de ses données provenant de sources diverses (web, mobile, CRM, …).

Donc pour résumer, on a : des solutions/technologies pour stocker les données (cloud, NoSQL, DMP), des briques techniques pour accéder à ces données / les traiter de manière efficace et aussi rapide que possible (Hadoop / Spark, MapReduce, API), des algorithmes et méthodes mathématiques/statistiques pour analyser ces données (Machine Learning, ElasticSearch) et des moyens de restitution des informations ainsi extraites (DataVisualisation, tableaux de bords, …).
C’est très bien toute cette “boîte à outils” du Big Data, mais concrètement, on en fait quoi ?

Science sans conscience...

Ok, donc maintenant que l’informatique s’est démocratisée et que les espaces mémoires ne coûtent pour ainsi dire plus rien, vous stockez tout plein de données sur tout plein de choses : infos clients et ventes, durées de fonctionnement machines, passages sur votre site web, … (et si vous ne le faîtes pas encore : shame on you ;). Et alors ?

BD-2

Alors, l’intérêt d’avoir accès à ces données ce n’est pas de vous noyer sous une masse d’informations indéchiffrables ou pouvoir dire à vos concurrents que vous avez la plus grosse… base de données, mais plutôt d’utiliser l’information extraite pour vous éclairer dans vos décisions.

C’est là qu’interviennent les “experts de la donnée”, quel que soit le nom qu’on leur donne : statisticien, data miner, data scientist, …
Leur mission va consister à travailler la donnée (organisation, nettoyage, reformulation, etc.) afin d’en extraire des informations utiles par rapport au(x) domaine(s) métier d’application. Ils auront également recours à des méthodes d’analyses statistiques afin de chercher à mieux comprendre les mécanismes sous-jacents qui régissent ces données.
C’est ce travail et cette expertise qui permettront de passer des simples données recueillies à une prise de décision : From Data to Action ! ;)

Smart data et empathie

L’objectif de la “smart data” est donc avant tout d’utiliser les données recueillies pour répondre à des questions, confirmer ou infirmer des hypothèses, éclairer des processus de travail, apporter une connaissance supplémentaire afin d’optimiser les actions de tous les jours, bref extraire de l’information utile des données et utiliser ces nouvelles connaissances comme aide à la décision.

BD-3

Ainsi, la qualité primordiale du Data Scientist (outre des connaissances techniques, algorithmiques, mathématiques, informatiques, et autres termes en “iques” ^^) est l’empathie.
En effet, le Data Scientist doit être capable de comprendre les problématiques métier du domaine dans lequel les données sont recueillies, extraire l’information intéressante présente dans ces données répondants aux objectifs métier et transmettre ce savoir dans un langage intelligible et facile à mettre en pratique par le professionnel.

C’est cette qualité qui fera la différence et le potentiel succès d’un projet data (et nous ne sommes pas les seuls à le penser).

Alors pour 2017, on vous souhaite une année sous le signe de la data, la connaisance, l'écoute et le partage ! :)

Partager