La qualité des données au coeur des projets de data mining
À LIRE AUSSI
«La qualité des données est primordiale, si l'on ne gère pas ce problème en
amont de l'analyse, on ne peut pas la structurer, capitaliser dessus et en
tirer les enseignements », souligne Arnaud Caplier, Dg de Consodata. Cette
qualité concerne dans un premier temps l'identification correcte d'un client
dans la base et donc son nettoyage afin d'éviter les NPAI et doublons. « Une
propreté nécessaire, mais qui coûte cher », précise Arnaud Caplier. Deuxième
phase importante : l'audit des données qui permettra de vérifier quelles sont
les données disponibles en interne, décider de leur enrichissement soit en
récupérant d'autres données des systèmes de gestions commerciales,
opérationnels et transactionnels, soit encore en faisant appel à des sociétés
spécialisées dans ce domaine comme Claritas ou Consodata. Dernière phase de
préparation, l'organisation des données dans une base étude et l'application de
règles de gestions cohérentes (écrasement de donnée, remplacement par une
autre...) afin de pouvoir par la suite créer les bons modèles d'analyse. « La
préparation des données dans une base étude représente 80 % du temps d'un
projet de data mining », souligne Isabelle Le Bras, responsable marché data
mining chez l'éditeur SAS. Il faudra ainsi se demander quelles sont les valeurs
extrêmes d'un échantillon, quelles sont les données manquantes et la manière de
les remplacer, découper les variables qualitatives en variables
quantitatives... Ultime étape avant le lancement d'une analyse, la modélisation
permet d'étudier un phénomène de comportement. «Il s'agit de s'attacher à
trouver le meilleur modèle mathématique pour modéliser, retracer le
comportement d'un client », assure Isabelle le Bras. Pour pouvoir réaliser de
l'analyse de comportement prédictive, il ne faudra pas hésiter à mettre
différents modèles en compétition grâce, par exemple, à la formule en nuage de
points. «A chaque problématique correspond, en fait, un modèle, une analyse.
Selon que l'on cherche à analyser des comportements frauduleux, des
comportements d'achat ou de la segmentation clients, on aura autant de modèles
d'analyse différents », commente Isabelle Le Bras.
Quelle architecture pour le stockage des données ?
Les experts semblent
s'entendrent à peu près sur le choix d'une architecture de stockage des données
clients. « Il est aujourd'hui plus facile de résoudre le problème de la qualité
des données avec la mise en oeuvre d'un datawarehouse qu'avec la multiplication
de datamarts spécialisés », explique Eric Falque (Bearing Point). Pour apporter
de la qualité de résultat au processus de data mining, NCR n'hésite pas non
plus à prôner la centralisation de toutes les données marketing et leurs
intégrations au sein d'un entrepôt. « L'approche datamart est dangereuse dans
le sens où elle demande au marketer de rapprocher des données qui ne sont pas
forcément cohérentes entre elles. », soutient Michel Bruley (Teradata). « C'est
plutôt en termes de processus que se joue la différence. Il sera certes plus
long de créer une base étude à partir de systèmes opérationnels pour faire du
data mining, que de partir d'un datawarehouse, mais il faudra quand même
industrialiser le passage entre le datawarehouse et le datamart étude »,
précise Isabelle Le Bras. Très pratique en théorie, le datawarehouse n'est
cependant pas la solution miracle. Et bon nombre d'entreprises qui ont bâti
leurs systèmes d'information marketing sur des bases éparses, s'en passent très
bien. «Il est tout à fait possible de gérer plusieurs bases de données
réparties au sein du système d'information, du moment que l'on s'attache à
organiser les données autour d'un référentiel unique », souligne Arnaud
Caplier. Quant à l'idée reçue qui voudrait que le data mining ne s'applique
qu'à de grands volumes de données, elle est totalement erronée, comme le
précise Eric Falque : «En fait peu importe la masse de données, car les
opérations de data mining se réalisent toujours au sein d'une base étude à
partir d'extractions. Dans une base de 25 millions de clients, on peut très
bien faire une extraction de 2 000 clients pour réaliser un score ou une
segmentation ».
Le data mining : une affaire d'expert ?
Une entreprise peut adopter deux types de démarches en termes d'analyses data mining. Celle qui fait du CRM analytique un véritable axe stratégique souhaitera effectuer des scores et des études comportementales évoluées. Elle aura donc besoin, en interne, d'un expert en statistique. Et puis, il y a le data mining de tous les jours qui ne nécessite pas forcément des scores très poussés et peut s'effectuer avec des outils "light" du marché. « Ces analyses quotidiennes peuvent être réalisées par un utilisateur marketing qui aurait une sensibilité de data miner sans pour autant être un expert ou un statisticien avéré », explique Françoise Fogelman (Business & Décision). Michel Bruley (Teradata) est beaucoup plus catégorique. « Le data mining nécessite trois types de compétences bien distincte, un informaticien pour l'extraction et le travail sur les données, un data miner pour l'analyse des données et un marketer pour les interpréter. Seule la compétence de dataminer n'est pas indispensable à plein temps et pourrait donc être sous-traitée. » Mais en fait, la question qu'il convient de se poser est : faut-il intégrer des équipes d'analystes au sein des départements marketing, commer-ciaux ou des études, ou bien est-il préférable, lorsque l'on mène des études stratégiques, d'externaliser ces compétences ? « Dès lors qu'une entreprise a une stratégie orientée client, il est important de capitaliser sur des compétences de CRM analytique », estime pour sa part Eric Falque. Reste que beaucoup d'entreprises notam-ment, du secteur de la grande distribution, face aux problématiques de compétences en analyses et productions de statistiques, décident d'externaliser leurs études. En effet, au-delà des techniques statistiques simples de régression et d'arbres de décision, dès que l'on aborde les réseaux neuronaux et les modélisations non paramétriques, les compétences sur le marché se font beaucoup plus rares.
Pourquoi et comment analyser son fichier client
Pourquoi analyser son fichier client ? « Parce que le marketing one-to-one et la fidélisation commencent par la bonne connaissance de ses clients. Comment ? Par le data mining qui permet de cerner les différents types de comportements et besoins des clients et augmentera la valeur du capital client », explique Gilles Hustaix, P-dg de Décisia. « Quand on oeuvre sur des logiques de segmentation, on n'a pas forcément besoin de faire du data mining. Il suffit de travailler sur 3 ou 4 variables clés et discriminantes qui permettront d'affecter un client sur un segment, comme c'est le cas dans la banque, la distribution ou l'automobile », explique de son côté Arnaud Caplier (Consodata). « Chez Renault, les marketers avaient l'habitude de travailler sur quelques variables clés, le nombre de véhicules achetés historiquement, le kilométrage annuel, pour monter leurs programmes marketing », ajoute-t-il. Des segmentations sur la valeur d'un client et son niveau de rentabilité requièrent ainsi des analyses quantitatives, qui ne sont pas d'ordre statistique mais financières. Nul besoin dans ce cas d'avoir recours au data mining. « Il me paraît plus d'impor-tant d'animer ses cibles commerciale-ment que de passer trop de temps à affiner sa segmentation client. Par contre, si l'on souhaite sortir des scores plus poussés dans le cadre d'une campagne d'acquisition et travailler sur des variables multiples, faire des analyses comportementales prédictives, de logique de proximité produit, d'appétence sur un produit, de risque de churn... le data mining trouve sa raison d'être », précise Arnaud Caplier.