Data Science : l'art de prédire les évènements clés de son activité
Publié par Tanguy Le Nouvel, directeur Practice Data Science, Micropole le - mis à jour à
Si un projet de Data Science permet de faire des recommandations précises en temps réel et d'identifier les nouveaux leviers de croissance, il ne faut pas négliger la phase de déploiement, cruciale. Le point avec Tanguy Le Nouvel, directeur Practice Data Science chez Micropole.
Issue de la forte montée en puissance du machine learning et de l'usage intensif d'outils venant de l'open source (tels que R et Python), la Data Science est, en quelques sortes, l'extension du Data Mining aux nouvelles plateformes Big Data.
Si l'on s'y penche de plus près, on s'aperçoit que la plupart des fondements des algorithmes cités comme relevant de la Data Science ont été définis il y a très longtemps. Qu'il s'agisse de traitement d'images, de textes ou encore de machine learning.
Ce qui a changé en revanche, c'est le couplage entre une puissance de calcul quasi infinie et la démocratisation de l'accès aux algorithmes de dernière génération, qui permet désormais de traiter tout type d'information et de délivrer plus de prédictions et de recommandations en temps réel, avec une précision parfois chirurgicale. Or, si le champ des possibles s'est aujourd'hui largement étendu, de nombreux projets lancés dernièrement auraient déjà pu être traités sans aucun problème il y a dix ans sur un PC de bureau ! Tant mieux donc si tout ce buzz autour du Big Data et de la Data Science a permis de réveiller les esprits !
Une vision 360°
L'autre avantage des nouvelles plateformes Big Data est qu'elles permettent de rassembler dans un environnement unique toutes les sources de données de l'entreprise (structurées ou non, Data Warehouse, Web, Capteurs, données externes...). Augmentant ainsi significativement la productivité des Data Miners Scientists et rendant possible la vision 360° qui en était resté jusque-là au stade virtuel pour de nombreuses entreprises.
Si la réconciliation de toutes ces données dans un environnement unique est simplifiée, il ne faut cependant pas oublier que chaque projet de Data Science nécessite une phase de cadrage et de préparation des données bien spécifique. La reconstitution d'historiques individuels et de trajectoires clients (montée en puissance, décroissance, instabilité des comportements...) dans un contexte omnicanal en vue de prédire un évènement (churn, souscription, agrandissement du foyer, projet immobilier...) ne s'improvise pas lorsqu'on ne l'a jamais fait !
En effet, la plupart des algorithmes ont besoin de travailler sur des tables de données qui ne ressemblent en rien aux données brutes déversées dans les datalakes. Dans la majorité des cas, ces algorithmes ont besoin de travailler sur des tables où chaque ligne représente un individu distinct et chaque colonne une information spécifique sur cet individu. Or, les données déversées dans les datalakes sont, pour la plupart, au format transactionnel. Par exemple, pour un projet de connaissance client, il faudra être en mesure de transformer ces données brutes afin de résumer au mieux la situation de chaque client avant l'évènement que l'on cherche à modéliser. Ces indicateurs porteront aussi bien sur le profil signalétique client que sur ses comportements passés (achats cumulés, récents, visites online ou offline, parcours d'achats, réactivité aux sollicitations marketing, avis consommateurs, déplacements, préférences affinitaires, utilisation des produits via capteurs sensoriels...).
On a donc beau être le " roi de la programmation ", on ne sera pas très avancé si l'on n'a jamais été confronté à la transformation des données brutes en indicateurs potentiellement pertinents pour expliquer ou prédire l'évènement ciblé. Or, jusqu'à présent, la majeure partie des projets de Data Mining était consacrée à la préparation des données. On s'aperçoit donc que rien ne change de ce point de vue-là avec l'arrivée de la Data Science.
Finalement, ce virage technologique est une formidable opportunité pour les entreprises désireuses d'anticiper et de prédire les évènements clés de leur activité. Il l'est tout autant pour les Data Miners eux-mêmes qui vont pouvoir découvrir de nouvelles approches (machine learning) et de nouveaux outils (R, Python, H2O...), dont la prise en main est finalement très accessible.
Deux profils complémentaires
Et même si certains Data Miners ont certainement dû se sentir un peu perdus devant une telle effervescence et l'invraisemblable accumulation de nouveaux environnements, langages, packages et solutions qu'il leur était demandé de maitriser par les entreprises désireuses de recruter, qu'ils se rassurent. Ces fiches de poste correspondent aux profils des pionniers de la data science : ces fameux " moutons à 12 pattes ". Elles vont progressivement laisser place à deux types de profils complémentaires :
- Les architectes Big Data au profil plus informatique que métier : chargés de configurer et d'administrer la plateforme Big Data, de gérer les flux de données, de préparer les données et d'automatiser leur transformation pour faciliter le travail du Data Scientist et l'exploitation opérationnelle des prédictions ou recommandations.
- Les Data Scientist au profil plus statistique et métier : chargés de faire le lien entre les besoins métiers et les données, de les transformer pour les analyser, synthétiser, expliquer et prédire certains évènements ou comportements. En quelque sorte, une extension du profil de data miner avec, en plus, la maîtrise des langages R et Python et une vraie agilité à choisir le bon langage en fonction des besoins spécifiques de chaque étude.
Quelle gouvernance?
Plus globalement, les architectures Big Data entraînent une modification de l'approche collaborative des différents acteurs. Là où le Data Miner était cantonné en bout de chaîne et était très rarement sollicité en amont des projets, le Data Scientist va travailler dès l'initialisation du projet avec l'architecte Big Data, en fonction du cas d'usage à traiter, sur la meilleure façon de récupérer les données (API, fichiers de type JSON, traitement en temps réel d'un flux de données, etc). Le Data Scientist donnera ainsi ses inputs en fonction des packages, librairies et algorithmes qu'il compte utiliser, l'usage même de ces algorithmes étant conditionné par la volumétrie des données.
Il y a donc une dimension de gouvernance qu'implique le travail du Data Scientist, de par sa capacité unique au sein du datalake de croiser l'ensemble des données transverses de l'entreprise. Se posent alors des questions liées à la sécurité, le respect et la protection des données privées, la manipulation de données sensibles, etc. Le Data Scientist devra donc travailler demain avec des profils tels que le RSSI (Responsable de la sécurité des systèmes d'information), mais aussi le CDO (Chief Data Officer) qui pilote la stratégie et l'ambition des données au sein de l'organisation.
Du fait des Big Data, de la puissance de calcul des nouvelles plateformes et de la nécessité de délivrer toujours plus de prédictions, prescriptions, recommandations pertinentes, dont certaines en temps réel, l'intensification de l'usage de la Data Science en mode machine learning dans les process opérationnels est inéluctable. Mais qui dit machine learning dit boîte noire, et qui dit analyse prédictive dit limitation au spectre des évènements passés pour influencer et orienter le futur. Or, les entreprises auront toujours besoin de comprendre, de créer et d'expérimenter de nouvelles offres, de nouvelles stratégies et de nouveaux dispositifs.
Il faudra donc que les entreprises soient proactives et qu'elles aient massivement recours à l'approche " test and learn ". C'est de cette façon que l'approche statistique classique et la Data Science leur permettront de mesurer et d'identifier leurs nouveaux leviers de croissance.
L'expert
Tanguy Le Nouvel est directeur Practice Data Science chez Micropole, entreprise de conseil et services du numérique.