L'analyse des données devient un outil stratégique
Hier encore réservée aux statisticiens, l'analyse des données est aujourd'hui à la portée des spécialistes du marketing dans les entreprises. Les outils sont devenus faciles à manier et à peu près compréhensibles pour le commun des mortels. Le procédé a gagné en vitesse. Aujourd'hui, on obtient en quarante-huit heures une segmentation qui demandait plusieurs mois auparavant.
Quelle est la place de l'analyse des données, dite "data mining", dans les
stratégies des entreprises ? « Vous ne pouvez rien faire en fidélisation quand
vous êtes assis sur un million d'adresses et que vous n'y voyez rien », lance
Monique Remillieux, directrice marketing clients chez Boulanger. « L'analyse
des données est aujourd'hui au coeur de la chaîne de la valeur client », estime
Benny Ung, directeur des activités conseil chez Atos Origin. Pour lui,
l'analyse se décompose en trois couches. D'abord, la capture des données par la
multiplication des canaux et des contacts : centre d'appels, portails, sites de
l'entreprise, courrier... Ensuite, la mémorisation et l'analyse des
transactions anonymes dans l'entrepôt de données, leur transformation en
informations.
Benny Ung (Atos Origin)
: "L'analyse des données est aujourd'hui au
coeur de la chaîne de la valeur client."
En dernier, la valorisation de la connaissance du client par des actions.
L'analyse est un instrument destiné à faire gagner du temps au consommateur en
personnalisant la relation client. Et, en même temps, assurer le passage de la
conquête pure de parts de marché à la fidélisation des clients. Dans la grande
distribution, il est rare qu'un client réalise tous ses achats en restant
fidèle à une seule marque. L'analyse est naturellement sommaire : récence,
fréquence, montant, avec une segmentation suivant les montants sur une période
donnée. Les tableaux de bord présentent leur évolution en valeur. Mais les
masses d'informations à traiter sont colossales. Cela inspire une démarche
prudente, surtout lorsque l'on prend en compte le retour sur investissement.
Ici, on recherche plus souvent un gain immédiat et la sécurisation du chiffre
d'affaires acquis. Les opérateurs de téléphonie mobile cherchent à connaître
les valeurs actuelles et futures de leurs clients, la possibilité de proposer
d'autres produits au même client et le niveau de risque de le perdre un jour.
Détecter les profils des fraudeurs
Ces quatre
indicateurs sont élaborés à partir des informations disponibles dans la base,
comme le type de contrat et l'usage du téléphone pour des appels entrants ou
sortants, pour les mêmes numéros appelés ou pas. La base est enrichie par les
croisements avec des informations en provenance des mégabases de données, telle
que Claritas. « L'analyse des données peut apporter une augmentation des ventes
ou bien des ventes croisées, mais aussi la détection des fraudes dans le
domaine bancaire ou la VAD », estime Marie-Claude Santon, directrice des
alliances chez l'éditeur SAS. Pour elle, Amazon.com est un exemple intéressant
: « Avec 32 millions de clients, statistiquement, ils ont plus de chances
d'avoir de la fraude. Leur système d'analyse dans la gestion de la relation
client permettrait de détecter les profils des fraudeurs et de réduire les
dégâts. » L'opérateur de télécommunications Sprint fait appel à l'analyse des
données dans le cadre de son programme de fidélisation pour ses 23 millions de
clients. Il aurait réussi à réduire le taux d'attrition en élaborant des offres
ciblées pour les clients multiproduits. Les banques s'intéressent à l'analyse
des données en appui des programmes de fidélisation, surtout aujourd'hui, dans
le contexte d'ouverture des marchés européens. « Les banques demandent des
outils simples et surtout automatisés dans toutes les analyses d'informations
sur le comportement des clients, constate Eric Sallou, directeur des opérations
chez Kxen. C'est important pour elles, car cela permet d'analyser les risques
d'un non-remboursement rapidement. » Même démarche d'ailleurs que dans la
téléphonie : le scoring doit être fait en temps réel. Les opérateurs de
téléphonie mobile proposent des options et des forfaits avec un coût de
commercialisation élevé par rapport au prix du produit lui-même. Ils ont aussi
besoin de cibler, parfois juste au moment où le client appelle.
Nouvelle pensée statistique
« L'idéal pour un opérateur
de téléphonie mobile qui dispose d'un fichier de cinq millions de clients,
c'est d'arriver à reconnaître 100 000 ou 200 000 clients ciblés. Cela lui
permettra de lancer ses campagnes sans trop augmenter les capacités de son
centre d'appels, poursuit Eric Sallou. On nous demande des délais courts. De
quelques semaines nécessaires pour l'analyse, on est passé à quelques jours.
Aujourd'hui, on peut réagir aux premiers retours d'une campagne test en
quarante-huit heures, pour vérifier l'adéquation du message. » Auparavant, ce
type d'analyse demandait un réglage manuel des paramètres statistiques,
l'extrapolation ou la recherche des valeurs manquantes car l'algorithme ne
supportait pas leur absence. Aujourd'hui, la méthode SRM de minimisation des
risques, issue des laboratoires universitaires américains, permet de
s'affranchir de la préparation des données. « C'est une nouvelle pensée
statistique !, s'exclame Eric Sallou. Cela a permis de déplacer les fonctions
d'analyse des statisticiens vers des spécialistes du marketing dans les
entreprises. » L'analyse des données joue un rôle important dans le MD. « Le
client reçoit des e-mails, des mailings sur papier, des appels de
télémarketing.
Marie-Claude Santon (SAS)
: "L'analyse des données permet de détecter
des fraudes dans les ventes à distance".
Il faut optimiser la relation client multicanale dans l'optique de réduction
des coûts », constate Isabelle Cinquin, responsable du département Gestion de
la relation clients chez Wunderman, agence spécialisée dans des programmes de
communication hors-médias. Comment repérer les clients les plus rentables, ceux
qui couvrent 80 % du chiffre d'affaires ? Quels types de communication doit-on
investir pour toucher ces clients ? Quelle est leur affinité par rapport à tel
ou tel canal ? Il s'agit d'affiner les plans de communication en fonction de la
probabilité d'achats et de fidélisation, qu'il s'agisse d'une opération de MD
sur Internet ou d'un programme de points. La télévision interactive offre
beaucoup d'applications en la matière, selon Isabelle Cinquin, car elle permet
de capter ce que l'individu a vu. Pour parvenir à des résultats intéressants
sur de forts volumes de données, il ne suffit pas d'augmenter la puissance de
traitement des machines, ce qui est d'ailleurs, économiquement parlant, limité.
Il faut encore que l'ensemble de la chaîne d'analyse soit adapté à un maniement
facile. « Les technologies des entrepôts de données sont aujourd'hui plus
légères et permettent une exploitation industrielle à faible coût », remarque
Denis Gihan, directeur général de Keyrus, intégrateur des solutions SAS,
Business Objects, Oracle, Kxen. Selon lui, « avec des logiciels comme Business
Objects, l'utilisateur peut concevoir ses propres requêtes de données sans
passer par une direction informatique, avec juste un PC de bureau et un accès
web. Pourtant, les méthodes statistiques sont les mêmes qu'hier. Ce qui a
changé, c'est l'utilité et la rapidité des informations et des croisements. On
peut faire appel à la créativité d'un chef de produit ou d'un commercial ». En
même temps, on est passé de mises à jour mensuelles des données commerciales à
des fréquences hebdomadaires voire quotidiennes, comme dans les banques. Ce qui
permet davantage de réactivité dans les opérations commerciales. Sur le marché
de la téléphonie, on peut détecter le déclin d'un segment et réagir avec des
offres très rapides. Demain, d'autres entreprises de services, comme EDF-GDF,
pourraient adopter la même approche. « Aujourd'hui, nous travaillons sur des
axes d'analyse grossiers avec une macro-segmentation de cinq à quinze groupes.
Je pense que l'évolution va vers une segmentation plus fine et multicritère et
vers des outils orientés métier », estime Denis Gihan.
Analyse textuelle
Tout le monde n'affiche pas le même optimisme. «
Aujourd'hui, l'analyse se limite souvent à un tableau de bord et à quelques
comptages élémentaires, sans aucune intelligence de traitement. Toute l'étude
se fait dans la tête du décideur », constate Alain Morineau, directeur général
de Cisia Ceresta, éditeur du logiciel Spad. Il préconise l'analyse des données
non numériques et textuelles, des lettres ou encore des e-mails. Le comptage
des mots et l'étude des liens pourraient apporter des informations
intéressantes sur les occurrences. Est-ce que, par exemple, les mots "retard"
ou "pas arrivé" apparaissent plus souvent cette semaine ? Autre domaine où
l'analyse textuelle apporterait des réponses : les enquêtes de satisfaction
élaborées avec des questions "fermées" pour faciliter le traitement
informatique des réponses. On pourrait alors y inclure des questions "ouvertes"
et relayer ensuite ces réponses aux informations plus classiques : l'âge, le
sexe, l'ancienneté du client. Cependant, cette méthode ne serait applicable que
sur le Web, là où les réponses sont numérisées directement à l'entrée. Partout
ailleurs, il n'existe aucun moyen de lire et de reconnaître fidèlement un texte
manuscrit. Et l'on imagine mal un client remplir l'imprimé de l'enquête de
satisfaction à l'aide d'une machine à écrire. Cette remarque est d'ailleurs en
partie valable pour le traitement du courrier entrant. Comment fonctionne un
outil d'analyse de données ? L'élaboration de typologies dans une base de
données fait partie des options habituellement demandées. D'abord, c'est le
ciblage et la segmentation pour déterminer l'appétence. Vient ensuite la
détection des associations de produits et aussi d'événements, des corrélations
d'achats et de contacts.
Scores d'appétence
Parmi les
méthodes, on compte la déclinaison des scores d'appétence ou de fidélité. Les
mêmes algorithmes statistiques vont servir pour plusieurs objectifs. « Nous
offrons deux ou trois algorithmes pour chaque problématique », explique Hervé
Mignot, directeur de la division Décisionnel de SPSS. Pour la typologie, il est
fait appel aux techniques des nuées dynamiques et aux réseaux neuronaux de
Kohonen. Voire une combinaison des deux, pour les bases de fort volume. Dans ce
procédé, la première technique utilisée sert à produire plusieurs centaines de
petits groupes. Et la deuxième servira à les regrouper en cinq, six ou sept
catégories naturelles, pour une meilleure homogénéité d'approche. Ici, il faut
trouver une adéquation entre le nombre de typologies et les limites de la
politique marketing de l'entreprise, intégrer ses intervalles pour aboutir le
plus souvent à un nombre compris entre cinq et dix types. « Nous proposons
différentes méthodes plutôt qu'une seule car on trouve généralement plus d'une
solution à un problème », souligne Hervé Mignot. Concernant les valeurs
manquantes, on considère qu'il y en a peu dans les bases de données internes
provenant de la facturation.
Hervé Mignot (SPSS)
: "Différentes méthodes plutôt qu'une seule car il y
a plus d'une solution pour chaque problème".
En revanche, les bases achetées ou collectées peuvent contenir des erreurs.
Pour compléter les variables, on cherche à déterminer leur taux de remplissage.
Ensuite, on va utiliser les valeurs moyennes ou bien construire des modèles
spécifiques pour chaque valeur manquante. On peut, par exemple, reconstruire
les revenus à partir de l'âge et de la géolocalisation. Pour le ciblage, il est
fait appel aux techniques des arbres de décision, de la régression logistique
et des réseaux neuronaux. Ces différentes techniques permettent de comparer les
modèles et de choisir le plus fiable. Pour trouver les abonnés qui risquent de
quitter un opérateur de téléphonie, on prend une partie de la base, on analyse
le profil des désabonnements et on teste le modèle sur l'autre partie pour
vérifier la correspondance. Ce genre de mesures doit aussi être pratiqué de
façon régulière sur un modèle opérationnel pour tester sa fiabilité en
pourcentage des classements réussis. L'actualité et la cohérence des données
constituent le facteur-clé de la réussite. Il faut savoir traiter une masse
d'informations stockées sur différents supports et systèmes. La qualité des
données est responsable à 70 % du succès. Le reste dépend de la méthode
utilisée pour l'analyse. Le marketing n'est pas une science exacte, donc les
analyses statistiques font appel au couplage de plusieurs méthodes. Par
exemple, la catégorisation suivie de régression et d'optimisation par un modèle
neuronal. La présence des valeurs manquantes fait ici la différence avec les
analyses statistiques utilisées dans la production, où toutes les valeurs sont
connues et il est possible de se limiter à une seule méthode. Par exemple, dans
la logistique, il s'agit de données objectives, et dans le marketing de données
déclaratives, issues de la perception et de l'appréciation humaines. Ce qui
impose une approche créative et empirique dans l'analyse. Aujourd'hui, les
fonctions de scoring, d'estimation et de prédiction pèsent pour 80 % dans les
activités d'analyse. Le reste est occupé par le regroupement des individus
suivant des catégories ou des sous-ensembles de critères. Combien ai-je de
segments ? Quelle est leur importance ? Existe-t-il des comportements atypiques
mais significatifs ? Telles sont les questions auxquelles l'analyse des données
propose des réponses. Leurs réponses ont notamment permis de découvrir
l'existence de la catégorie dite "Bourgeois-Bohème". Dans la téléphonie mobile,
l'analyse a permis de remarquer que l'option "International" n'était pas
réservée aux hommes d'affaires mais pouvait aussi intéresser des étudiants qui
partent faire un stage à l'étranger. Cette population réputée à bas revenus
n'aurait pas été ciblée si l'on avait fait une sélection sur le critère des
finances. D'un autre côté, elle ne sera pas intéressée par les mêmes offres que
les hommes d'affaires. Désormais, on peut donc cibler cette catégorie à moindre
coût marketing.
Comparer les avantages financiers
Comment estimer les avantages obtenus grâce à une analyse des données ? Chaque
somme investie dans une prédiction doit aboutir à une augmentation du taux de
fidélité, d'achat ou de réponse. C'est le seul critère de rentabilité d'un
programme. On mesure le gain du modèle par rapport à la dispersion statistique.
Par exemple, un gain de "trois" signifie qu'avec le modèle en question, pour
obtenir le résultat désiré, il faudra trois fois moins de contacts que si l'on
procédait à un tirage au sort. Il sera intéressant de comparer les avantages
financiers escomptés avec le coût de l'outil lui-même : entre 500 000 et
plusieurs millions de francs. L'analyse des données est une méthode aux
applications limitées. Elle constate des événements, mais ne sait pas expliquer
les leviers de satisfaction et de fidélisation à la marque, et ne donne qu'une
vision parcellaire des centres d'intérêt. Cependant, cet outil se présente
comme alternative intéressante pour les PME, là où il est difficile de
justifier un poste de statisticien à temps plein. Il permet aussi de
s'affranchir des difficultés traditionnelles de communication entre des
mathématiciens et des spécialistes du marketing issus de cultures trop
différentes. Le développement des contacts directs, que ce soit lors d'une
vente sur le Net ou dans la gestion de la relation client sur un centre
d'appels, ont apporté une nouvelle contrainte de temps. Avant, il fallait six à
douze mois pour faire un modèle. Aujourd'hui, le score peut être obtenu en
vingt-quatre heures. De plus, le profil du client est souvent établi en temps
réel pendant le contact, avec quelques questions discriminantes. Reste à savoir
quelle sera la valeur d'une prévision aussi prompte et parfois superficielle
pour l'entreprise. L'analyse des données évolue aujourd'hui, d'un rôle de
constat vers celui de prévision. Hier encore, on l'utilisait pour décrire les
profils des clients. Aujourd'hui, on s'oriente vers les pronostics de la valeur
d'un client, de la probabilité et de la fréquence d'achats ou encore de son
affinité par rapport à un canal.
Comprendre le data mining
Le mot anglais "data mining" est utilisé dans l'univers marketing pour remplacer - sans raison valable d'ailleurs - l'expression française "analyse des données statistiques". Car il s'agit d'un outil d'analyse statistique traditionnelle, faisant appel à des méthodes mathématiques pour trouver des corrélations entre les éléments d'une base de données. Les mêmes méthodes et algorithmes de calcul sont utilisés pour analyser les données statistiques dans l'industrie, par exemple. Ils sont enrichis par quelques éléments dits "d'intelligence artificielle" : la logique floue, le raisonnement heuristique, les réseaux neuronaux. L'analyse des données marketing est divisé en quatre grands chapitres. 1 Catégorisation. Recherche des catégories naturelles inconnues à l'intérieur de la BDD. Elle demande beaucoup d'informations y compris les indicateurs démographiques et comportementaux. 2 Classification. Rangement des clients à l'intérieur des catégories établies plus haut, un peu comme un diagnostic médical. Utile pour les entrepôts de données. 3 Estimation et prédiction. Tentative d'évaluer certaines caractéristiques - par exemple l'endettement des clients dans une même catégorie - pour faire des estimations de la situation actuelle et future d'un client. 4 Regroupement par affinités. Recherche des événements ou des transactions simultanées, par exemple des combinaisons de ventes dans le panier de la ménagère. Le plus complexe car les possibilités sont illimitées. Il faut y trouver des combinaisons significatives. Parmi les exemples connus, on citera celui des pizzas surgelées et des grandes bouteilles de Coca. Cette classification est extraite de : Concevoir et déployer un datawarehouse de Ralph Kimball. Editions Eyrolles.
Boulanger : « Le raisonnement récence-fréquence n'est pas suffisant »
« Nous avions du mal à identifier les clients et leur valeur pour l'enseigne », témoigne Monique Remillieux, directrice marketing clients chez Boulanger. Sa base de données clients comprend plusieurs millions d'adresses. L'objectif était de comprendre le comportement et d'établir une stratégie de fidélisation. « Le raisonnement simple avec la récence - fréquence ne me paraissait pas éclairant, poursuit Monique Remillieux. Je recherchai une intelligence statistique pour une stratégie traditionnellement définie en interne. Atos Origin nous a apporté une capacité de traitement de plusieurs millions d'adresses avec jusqu'à cinquante informations par adresse. » L'offre d'Atos a été jugée suffisamment transparente, notamment grâce au fait que l'enseigne peut y implémenter de nouvelles règles de façon simple. Le prestataire a réfléchi sur le cahier des charges et a défini des bornes pour son intervention qui a été jugée satisfaisante. Le fichier de Boulanger a été segmenté en six catégories de clients. « Reste aujourd'hui à démontrer à tout le monde, en interne, tous les gains que la segmentation peut apporter pour la fidélisation », remarque Monique Remillieux, qui reproche à son prestataire un coût de prestations élevé. « 10 000 F par jour pour les "têtes pensantes" en conseil marketing, cela limite forcément les rapports. J'aurais fait plus avec eux s'ils étaient moins chers », regrette-t-elle.
Sogec : « L'intuitif est le point fort de la solution SPSS »
« Nous voulions créer un pont entre les bases de données et nos activités en tant qu'agence, témoigne Janick Lalou, directrice du département Agence de Sogec, spécialiste en conseil hors-médias. Nous recherchions des données plus qualitatives ainsi que des outils de décision. Le but était de rechercher des corrélations du type "si... alors...", et de détecter les lois permettant d'organiser une relation commerciale. Nous faisons beaucoup de marketing direct avec des bases très volumineuses où il nous faut trouver les lois sur plusieurs niches simultanément. » L'appel d'offres a été arbitré en faveur de la solution SPSS. « Nos préférences allaient vers un outil de modélisation convivial avec un partenariat souple. C'est pour cela que nous avons choisi Clementine, explique Janick Lalou. Son point fort, c'est son côté intuitif. Mais le dictionnaire des données est à construire, c'est un point faible. »
Netarget : « Un élément structurant pour l'entreprise »
« Nous cherchions un outil avec une mise en place rapide pour analyser notre base de 1,2 million d'adresses en France, avec jusqu'à 1 000 critères par internaute », raconte Christophe Cousin, directeur marketing de Netarget, éditeur du site de loterie Bananalotto et client de SAS. Pour cette entreprise, qui tire l'essentiel de ses revenus de la monétisation de sa base de données, la capacité d'analyse est stratégique. L'objectif était d'en automatiser le traitement en faisant appel à une solution modulaire qui permettrait d'étaler les budgets au démarrage du site. « Nous sommes passés des requêtes simples à une typologie comprenant huit segments, des e-acheteurs actifs en VPC jusqu'aux étudiants qui n'achètent rien, poursuit Christophe Cousin. La solution de SAS prévoit un format de stockage propriétaire. A priori les informaticiens n'aiment pas ça. Mais leurs doutes ont été dissipés par la fiabilité et la rapidité de réponses de l'application. » Aujourd'hui, Christophe Cousin est satisfait de son outil d'analyse : « Sur le plan technique, je n'en entends jamais parler. C'est la meilleure des appréciations. » Il reproche à sa solution son coût élevé : « C'est un très gros investissement pour une petite structure comme la nôtre. Mais cet investissement est rentable. Il fait aujourd'hui partie des éléments structurants de notre entreprise. »
Sociologiciels : « Enrichir l'analyse avec des variables d'attitude »
« Nous utilisons des produits SAS, SPSS et Cisia (Spad) ainsi que les logiciels Panama et Crom-x, personnalisés en interne pour l'analyse descriptive », explique Christian Delom, P-dg de Sociologiciels. Ce conseil en traitement statistique prêche pour l'intégration la plus large des variables "attitudinales" dans l'analyse. « Par exemple, pour Canal Plus, il s'agit de prendre un panel de 2 000 personnes sur leur base de 4,5 millions d'abonnés, d'établir la typologie de cette population et d'élaborer un questionnaire spécifique - émissions préférées, habitudes de loisirs, style de vie... - en tout une cinquantaine de questions pour des entretiens fermés de 20 à 25 minutes, détaille Christian Delom. Puis d'analyser la typologie canonique pour aboutir à six types suivant leur intérêt pour Canal Plus et pour l'innovation technologique. » Ensuite, de reconnaître dans ces groupes ceux qui s'éloignent de Canal Plus, ceux qui ont une sensibilité technologique et qui seraient intéressés par un passage de l'analogique vers un autre mode de réception. Il faut alors trouver des questions discriminantes pour la typologie recherchée (dans cet exemple, il y en a eu 12). « Désormais, avec cet algorithme, on peut sur le centre d'appels de Canal définir en temps réel le profil de l'appelant », conclut Christian Delom.
Bibliographie
Pour en savoir plus : "Introduction au data mining", de Michel Jambu. Editions Eyrolles. "Le Data Mining", de René Lefébure et Gilles Venturi. Editions Eyrolles. "Data Mining", de Michaël J.A. Barry et Gordon Linoff. InterEditions. "Data mining pour le Web", de Patrick Naïm et Mylène Bazsalicza. Editions Eyrolles.
