Accueil / Data

Data mining : Le web change la donne

Le data mining, ou l'analyse intelligente des données, a quitté le havre des bureaux des services études. Aujourd'hui, il participe pleinement à l'élaboration de nouvelles offres commerciales et de services. Outil opérationnel, il est, par exemple, déployé sous forme de modèles dans les agences bancaires et aide à scorer les clients. Et maintenant, un nouveau monde s'offre à lui, le Web, source quasiment inépuisable de données gratuites, non-déclaratives et en temps réel.

Publié par Olivier Brusset le 1 mars 2000

Lecture
19 min

Imprimer

« Après quelques années d'évangélisation, le data mining est maintenant connu et reconnu. Le marché des bases de données marketing étant arrivé à maturité, il en est devenu un maillon essentiel. Chez Valoris, il fait d'ailleurs partie de notre centre d'expertise marketing. » Antoine-Eric Sammartino, Senior Marketing Manager au sein du Centre d'Expertise InfoMining chez Valoris, note que le contexte général du traitement des données marketing a changé. La mise en place des centres d'appels, la multiplication des sources de données sur les consommateurs ont eu pour corollaire une très forte demande en matière de traitement de ces données. Et si, dans un premier temps, les hommes du marketing se demandaient ce qu'apportait le data mining par rapport aux traitements statistiques classiques, aujourd'hui, la question ne se pose plus vraiment. Si les outils OLAP, les logiciels représentant les données sous forme de cubes multidimensionnels, sont utilisés en tant qu'indicateurs ou tableaux de bord, destinés aux directions générales ou marketing, le data mining intervient dès qu'il s'agit de comprendre le comportement du client et de l'anticiper. « A partir du moment où il y a un besoin d'interaction, où il faut traiter de l'information et déboucher sur une action, le data mining s'impose », précise Antoine-Eric Sammartino.

DATA MINING COMPORTEMENTAL

Pour François Laxalt, responsable marché data mining et CRM chez SAS Institute, « historiquement, les vépécistes ont été les premiers à avoir mis en place des procédures d'analyse ayant recours au data mining, dans un but bien précis : connaître la rentabilité de leurs clients lors de l'envoi de mailings ». Ces grands vépécistes, qui disposent de bases de données marketing gigantesques - on cite 23 millions d'adresses pour La Redoute -, s'appuient généralement sur leurs propres fichiers pour prospecter leurs clients. Lorsque ces vépécistes ne proposaient que des catalogues généralistes, envoyés vers environ 6 millions de foyers, la segmentation était relativement simple : 5 millions d'adresses étaient prises sur les clients actifs des années précédentes et un million - des clients non-actifs - servait à la prospection. La stratégie était claire, le mailing était envoyé pour que les clients réagissent et achètent indifféremment un produit. On voulait savoir qui a acheté, qui n'a pas acheté, à qui il faut rembourser le prix du catalogue. Aujourd'hui, avec l'apparition de nombreux catalogues spécialisés, la problématique est différente. Il s'agit de savoir quels sont les clients les plus sensibles à des offres précises. « Cela nécessite un data mining comportemental plus que d'achat, qui intègre également le compte d'exploitation client, afin de connaître sa rentabilité », précise François Laxalt. L'idée sous-jacente est de différencier les budgets marketing en fonction du comportement des clients. Un exemple : si un vépéciste envoie vers un client précis une cinquantaine de mailings ciblés, et que celui-ci ne commande que des produits de peu de valeur, on peut savoir précisément ce qu'il a coûté. En revanche, d'autres clients peuvent très bien acheter beaucoup de produits en n'utilisant que le catalogue annuel. L'analyse devient plus complexe, car il faut également prendre en compte la durée de vie du client - la Life Time Value -, la rentabilité, la marge dégagé... Et seul le data mining est apte à résoudre ce type de problématique. Peu d'entreprises possèdent naturellement ces informations comportementales. Outre les grands de la VPC, on peut citer les banques, les compagnies d'assurances, les compagnies de télécommunication et, dans une certaine mesure, la grande distribution, à partir des tickets de caisse ou par le biais des cartes privatives. Reste que posséder des outils de data mining, c'est s'assurer une différenciation et un avantage stratégique. Pour François Laxalt, « les compagnies de télécoms n'ont pas le choix. La concurrence acharnée, l'infidélité de leurs clients - le "churn" -, associées à la masse d'informations qu'elles possèdent sur leurs clients les obligent à utiliser le data mining ». Quant aux entreprises qui n'ont pas d'accès direct à leurs clients, elles doivent se résoudre à se procurer des fichiers ou à mettre au point des enquêtes ou des études.

MODÉLISER LE MEILLEUR CANAL

Aide à la stratégie, le data mining doit prendre en compte tous les canaux de communication avec le client, afin de déterminer quel va être le meilleur vecteur à utiliser pour un client ou un groupe de clients et un message donné. Sans oublier les données financières. Imaginons une promotion de 10 % sur une réduction de location d'hôtel. Si l'on modélise le meilleur canal pour cette promotion, et que l'on intègre le volet financier, le résultat sera très différent, selon que les réponses à la promotion passent par un e-mail (quasiment gratuit), par un mailing (coût environ 3 F) ou encore par un centre d'appels (20 F). « L'analyse résultante pourra apparaître sous la forme d'un pourcentage ou d'un graphique. Le décisionnaire choisira en fonction de sa stratégie, mais il aura tous les éléments en main », poursuit François Laxalt. Pour Françoise Fogelman, directrice de Business & Décision, une SSII spécialisée dans le décisionnel, les entreprises disposent d'applications de production organisées autour de bases de données orientées produits. « Ce qui leur manque encore trop souvent, explique-t-elle, c'est une vision transversale du client, qui prenne en compte toutes les composantes de son comportement vis-à-vis de l'entreprise. » Pour réaliser ce projet, la base de données clients doit prendre appui sur l'ensemble des données clients disponibles dans l'entreprise. Elle doit avoir la capacité de regrouper des informations hétérogènes dans une base unique. Le but est de disposer d'un système assurant une vision globale du client, permettant, par exemple, de s'apercevoir qu'un client appelle souvent le service de réclamations, mais génère un chiffre d'affaires faible. Une fois cette base constituée, une première attitude consiste à monter des indicateurs. Pour le marketing, ce sera un tableau de bord montrant le coût global des campagnes, cumulé sur plusieurs années, le taux de marge des contacts générés, le taux moyen de transformation, le chiffre d'affaires moyen généré. Il s'agit d'une attitude comptable : on constate, mais on n'anticipe pas. En revanche, le data mining permet une vision prédictive. Un opérateur télécoms pourra grâce à une requête data mining connaître son taux moyen de "churn" - celui des clients ayant résilié leur contrat pour passer à la concurrence - et demander le profil des clients susceptibles de le faire dans un futur proche. On peut ainsi anticiper. Le data mining décrit les données et prévoit les comportements. Il permet une segmentation extrêmement précise. Un constructeur informatique qui veut se lancer dans la vente directe - pour peu qu'il ait une base de données clients constituée par les bons de garantie, par des enquêtes ou encore par son service de réclamations - pourra isoler un segment de clients fidèles à la marque, qui ont acheté chez un distributeur mais qui apprécient la vente directe. Il construira un modèle pour prévoir ceux qui ont le plus fort potentiel. « Pour les plus chauds, on aura recours aux services des commerciaux. Pour ceux qui sont un peu moins chauds, on utilisera le centre d'appels. Pour le reste, on lancera un mailing », indique Françoise Fogelman. Quant au segment des clients qui changent de marque à chaque fois, pour les convaincre, il leur sera proposé des promotions spécifiques. Et pour ceux qui sont fidèle... On ne fera rien !

MÉTHODE FRANÇAISE

Le data mining repose sur trois principales techniques pour arriver à ses fins : détecter en "torturant les données" des relations nouvelles, des modèles, des segments nouveaux qui n'auraient pas pu être découverts autrement. Les outils les plus courants utilisent des méthodes statistiques de régression. Des méthodes rapides et efficaces, mais qui touchent à leurs limites quand il s'agit d'analyser de nombreuses variables. Deuxième technique : les réseaux neuronaux, inspirés du fonctionnement du système nerveux. Ils sont capables d'apprendre et de changer de comportement en fonction des expériences nouvelles. Ils peuvent traiter les problèmes non-linéaires et "bruités", c'est-à-dire lorsqu'existe un trop grand nombre de variables non-pertinentes ou redondantes - mais ils sont coûteux en termes de puissance matérielle et en temps d'exécution. De plus, ils ont un aspect "boîte noire" qui rend difficile l'interprétation de leurs découvertes. Enfin, les arbres de décision, une technique visuelle, qui consiste à répartir les données en groupes homogènes, en fonction de la valeur des variables. Leur représentation, très visuelle, permet à un non-expert de comprendre les associations et de prendre des décisions. Chez SPSS, le module Answer Tree utilise la méthode des arbres de segmentation. Très utilisé pour faire de la segmentation, ce module permet de prendre des décisions à partir de variables que l'on connaît à l'avance. « Cela permet aussi de sélectionner des variables utiles », souligne Stéphane Karm, directeur de SPSS Marketing Research. En matière de décision d'achat, l'arbre de décision permet d'isoler une variable intrigante : le troisième sexe ! Ou plutôt le couple. Et, pour peu que l'information soit disponible dans la base de données, on saura que la décision d'achat ne vient pas de l'homme ou de la femme, mais du couple. Reste qu'il n'y a pas de méthode de data mining universelle et que chacune possède ses avantages et ses inconvénients. Pour Juliette Chapront, responsable de la communication de Cisia Ceresta, éditeur du logiciel d'analyse SPAD, le data mining constituait, à ses débuts, la chasse gardée des statisticiens. Elle distingue deux écoles de statistiques. D'une part, l'anglo-saxonne qui utilise la modélisation. « En gros, raconte-t-elle, on part d'une variable, d'un a priori, et l'on cherche à expliquer les corrélations. Mais, lorsque l'on dispose de beaucoup d'informations, on ne sait plus laquelle garder. » D'autre part, la méthode française, qui date des années 70. Elle utilise l'ensemble des informations, cherche à trouver les liaisons entre ces informations et à garder les plus pertinentes. SPAD, créé en 1987 et développé par les laboratoires du Credoc, est le premier logiciel intégrant les méthodes d'analyse des données à la française. « Son originalité, indique Juliette Chapront, c'est que, contrairement aux logiciels anglo-saxons, il ne présente pas les informations sous la forme d'un tableur. Une variable est sélectionnée et les résultats apparaissent sous forme d'icônes ou de graphiques. »

RÉSEAUX DE NEURONES

Pour Antoine-Eric Sammartino (Valoris), « en matière de data mining, parmi les incontournables figurent SAS, qui a su marier très tôt la gestion de données et leur traitement ; SPSS, qui a une stratégie passant par le rachat des meilleurs éditeurs du marché - je pense au produit Clementine - ainsi que des éditeurs spécialisés comme I Soft avec Alice, un outil d'exploration. On trouve aussi de nouveaux entrants comme Netral, avec la suite logicielle Neuro One, qui utilise la méthode des réseaux de neurones selon un processus original ». Netral est un cas à part. Cette société, créée en 1994, a pour principal marché l'industrie, avec des applications de contrôle de procédés, de maintenance prédictive. « Au départ, raconte Jean-Luc Ploix, son P-dg, notre outil permettait de modéliser des applications industrielles, afin de détecter des anomalies ou encore aider des opérateurs à piloter des process industriels. Avec des clients comme Sollac, Rhône-Poulenc ou Dassault. Puis, nous nous sommes aperçus qu'un processus d'achat économique constituait aussi un processus modélisable. Il y a des informations en entrée et un résultat. » Le principe est relativement simple. Il repose sur un binôme. L'expert métier et le logiciel Neuro One (et son opérateur). On présuppose qu'il n'est pas forcément utile de connaître les liens qui permettent d'aboutir à un résultat, il suffit d'identifier les paramètres qui y contribuent. « Si une loi existe, indique Jean-Luc Ploix, on peut la détecter. Au départ, l'expert métier a l'intuition, et nous lui donnons les moyens de calculer les paramètres essentiels pour parvenir au résultat. » Concrètement, imaginons un chef d'entreprise qui désire se voir accorder un prêt auprès de sa banque. Celle-ci va lui demander trois années de bilan, et un expert va se baser sur une quinzaine de ratios pour prendre sa décision. Les réseaux de neurones vont essayer de comprendre le comportement de l'expert, élimineront les ratios inutiles ou non pertinents et réaliseront un modèle. « Après, il suffira de mettre à la disposition de l'expert les sept paramètres les plus pertinents. Il appuiera sur un bouton et le logiciel lui fournira la réponse, le score », poursuit Jean-Luc Ploix. Une fois le modèle créé, l'outil peut être mis dans les mains d'une personne non experte. Il faut rentrer le modèle, dire ce que l'on veut avoir en sortie, et la réponse sort. Neuro One se présente sous la forme de deux logiciels. Neuro One crée les modèles, et Neuro Fit, déployable dans toute l'entreprise, utilise les modèles. La force de cette solution tient dans le fait qu'une fois le modèle créé, sa règle est indépendante de la base de données. Le modèle représente un segment de marché et ne pèse que 2 Ko. Une banque aura tout intérêt à mettre à la disposition de ses agences le logiciel Neuro Fit, et à créer des modèles au siège, avec Neuro One. Il lui suffira d'envoyer les modèles au fur et à mesure.

PRÉPARATION DES DONNÉES

« La vraie dimension du data mining, c'est sa capacité à fournir des résultats faciles à transmettre à des personnels peu qualifiés. » Hervé Perdrix, directeur général de Isoft, l'éditeur du logiciel Alice, constate que le marché du data mining a beaucoup évolué et qu'il est désormais intimement lié à la gestion de la relation client. « Dès qu'un projet de base de données marketing est lancé, le data mining figure dans le cahier des charges. Le passage à l'an 2000 a permis aux sociétés de voir l'état des systèmes d'information ; elles connaissent maintenant l'état de leur parc, ses faiblesses et leurs conséquences. Aujourd'hui, le data mining est lié au marketing », constate-t-il. Reste un frein : la préparation des données et l'alimentation de la base en données, qui engendre une certaine frustration de la part des utilisateurs. Pour Hervé Perdrix, trop souvent, on se limite à savoir qui achète et qui n'achète pas, mais 60 % des données s'expliquent mal parce qu'on les a trop agrégées. Pour lui, il faut procéder en deux étapes. Extraire les variables évidentes dans un premier temps, puis aller plus en profondeur et chercher d'autres variables. « Le pire, ajoute-il, c'est quand le data warehouse n'a pas été conçu en fonction de l'analyse. » Hervé Perdrix note que le secteur des assurances est de plus en plus utilisateur de data mining. « Les assureurs ont une approche plus ouverte car ils abordent cette technologie avec un oeil neuf. » Les compagnies qui passent par des courtiers pour vendre leurs produits ont peu d'informations clients, leurs analyses portent donc sur la nature du risque, courtier par courtier, tandis que celles qui disposent d'un réseau fort connaissent clients et produits et cherchent maintenant à coupler plusieurs contrats d'assurances. Si les grands de l'assurance ont tous une même stratégie de fidélisation, les nouveaux arrivés sont en phase de conquête et cherchent à définir des segmentations différentes. C'est là que le data mining intervient. Au lieu de segmenter sur l'habitation ou le bonus, certains choisiront le kilométrage parcouru. Avec un marketing agressif sur des populations ciblées, on peut à la fois être rentable et développer une image de marque différente. Là encore, c'est la stratégie marketing qui va permettre de faire la différence, grâce aux outils de data mining. Mais elle suppose que l'on ait des idées a priori et que l'on cherche à les valider. L'expertise métier garde une place primordiale.

VERS LE E-MINING

La cause est entendue, le data mining est maintenant descendu des cimes des départements études pour servir d'outil opérationnel. Déployé dans tous les canaux de l'entreprise qui sont en contact avec le client, il permet aux forces de vente de disposer d'outils permettant de prendre des décisions très rapidement. Reste maintenant à aborder une problématique encore plus prometteuse, le e-commerce. « Avec l'avènement du e-commerce, pour la première fois, nous allons pouvoir pratiquer le marketing one-to-one pour un coût quasiment nul, annonce Hervé Perdrix. Mais il faut pratiquer ce marketing on line de façon intelligente, car un bandeau publicitaire mal approprié n'est pas vu, et une publicité mal ciblée peut entraîner le début de la décadence d'un site. Ce que nous savons, c'est qu'une analyse statistique des logs - la détection de la présence d'un internaute sur un site - ne suffit pas. » Le Web révèle une mine d'informations sur ses utilisateurs. Savez-vous que, lorsque vous cliquez sur un site, il est possible de savoir immédiatement depuis quel site vous êtes arrivé, quel système d'exploitation vous utilisez, votre logiciel de navigation, le nom de votre fournisseur d'accès et votre nationalité. Ce sont des informations gratuites qu'il s'agit, ensuite, d'enrichir. Le data mining, dans un premier temps, pourra servir à contrôler les performances du site, afin de garantir le niveau du service. Ensuite, connaissant le cheminement des internautes sur le site et leur impact sur les achats de produits, il s'agira d'optimiser celui-ci afin que les consommateurs trouvent plus rapidement ce qu'ils cherchent. Sur un site trop lent, mal construit, l'internaute se lasse et va chercher ailleurs ce qui l'intéresse. Les Américains disent : "competition is just a clic away" - "les concurrents ne sont éloignés de vous que d'un clic de souris !". « En fait, il n'a jamais été aussi facile d'avoir un clien... Et de le perdre », constate François Laxalt. Enfin, la dernière étape est celle de la personnalisation du site en fonction du profil de l'internaute. En utilisant à la fois les informations que l'on possède sur lui et les informations provenant de sa navigation, on pourra lui présenter une information personnalisée. Cette stratégie peut s'appliquer en deux étapes. Une banque, par exemple, pourra présenter un site pré-personnalisé en fonction d'un segment défini, avec une page d'accueil commune, puis, lorsque l'internaute donne son nom et son numéro de code personnel, sa page personnelle lui apparaît. Quant à la problématique des bandeaux de publicité, là aussi, le data mining intervient en déterminant quelle est la publicité à envoyer à l'internaute. Reste un écueil qui devrait intéresser les fournisseurs de matériels de stockage, le Web génère une masse de données extraordinaire. « Un bon site français, indique François Laxalt, génère plus de 15 Go d'informations par mois, avec une augmentation de 10 % par mois. »

PROFILS POUR BEST-SELLERS

On cite souvent en exemple de réussite de commerce électronique le site Amazon.com. Mais l'on sait maintenant que sa valeur n'est pas due aux ventes de produits, mais au nombre de personnes ayant commandé sur ce site. Amazon.com vend des profils d'acheteurs et d'internautes. A la limite, il n'est pas important qu'ils aient acheté quelque chose ; le seul fait de connaître leurs centres d'intérêts a une valeur. On dit même que certains auteurs de best-sellers se servent de ces profils pour élaborer les synopsis de leurs prochains livres. Le Web permet de constituer d'énormes bases de données mondiales sur les consommateurs. « Pour peu que l'on ait intégré le canal Web aux bases de données clients, que l'on ait mis en place des outils de Web Mining, ajoute Françoise Fogelman, l'exploitation des traces laissées par les internautes permet de savoir pourquoi l'internaute achète en ligne et quels sont ses goûts. Ainsi, on pourra lui proposer des services personnalisés, et obtenir des sources d'information directes sur le client, en y incluant une dimension temps réel. » Pour illustrer ces propos, voici quelques sites web qui pratiquent le e-mining : Mediametrix.com, qui vend des rapports sur les achats des internautes par secteur industriel ; NetValue.fr, qui permet de traquer le comportement des internautes ; Allstats4u.com, un site d'analyse d'audience qui met en commun les informations des sites qui utilisent son produit ; Personify.com, qui analyse l'audience et suggère les meilleures opportunités de ventes croisées. Le Web va changer radicalement la donne en matière de marketing direct et d'analyse comportementale. Reste quelques problèmes importants à régler : où va-t-on récupérer ces données, comment va-t-on les enrichir et les entretenir ? Enfin, sachant que toute source d'information est cruciale, il va falloir industrialiser la remontée des informations clients. Il serait dommage de passer à côté de la mine d'informations qu'est le Web, en étant tout simplement submergé par les donnée...

Banque Transatlantique : les actifs sont ciblés

Filiale du CIC-Crédit Mutuel, la Banque Transatlantique est la banque des diplomates et des français à l'étranger, mais aussi une banque de gestion privée. L'année dernière, profitant de la réorganisation de ses forces commerciales et afin de tester l'apport du data mining en matière de ciblage marketing et commercial, sa direction a choisi de faire appel à la société Valoris pour mener une mission de ciblage. « Nous voulions déterminer quel était le potentiel d'actifs de nos clients, précise Pierre Vallet, directeur de la Clientèle Privée. Nous avons procédé par enquête téléphonique sur certains, mais nous ne pouvions pas agir ainsi sur tous nos clients. C'est pourquoi nous avons utilisé le savoir-faire de Valoris et du logiciel de SAS Institute. » Parallèlement à l'enquête téléphonique, le logiciel de data mining a pris en compte la totalité de la base de données client, la segmentation s'opérant sur le potentiel d'actifs. « Nous n'avons posé qu'une seule question : "est-ce que ce client a le potentiel pour déposer ses actifs dans notre banque ?". Le logiciel a sorti les noms et l'algorithme de segmentation. » Résultat de l'opération : le data mining a permis d'identifier 10 à 15 % de clients à potentiel qui n'auraient pas pu, ou auraient été difficilement identifiés. Afin de corroborer ces découvertes et vérifier la véracité des prédictions, les noms des 200 "plus petits" clients découverts par le data mining ont été intégrés dans l'enquête téléphonique, avec un résultat positif. Pierre Vallet, convaincu par les bénéfices de cette technique, met en avant la rapidité des résultats (l'enquête a duré deux mois), et compte implanter un logiciel de data mining dans son établissement au cours de l'année 2000. Avec trois objectifs : lutter contre l'attrition, l'utiliser dans le cadre de campagnes marketing sur de nouveaux produits et qu'il devienne un outil au quotidien du conseiller patrimonial, afin de cibler les bons clients au bon moment.

Bibliographie

- Introduction au data mining, de Michel Jambu. Editions Eyrolles 1998. - Le Data mining, de René Lefébure et Gilles Venturi. Eyrolles / Informatiques Magazine. 1998.

Publié par :
Olivier Brusset

Tags associés :

#PROGRAMME INFORMATIQUE