Les techniques du scoring
Voici quelques méthodes de scoring passées en revue par Mahamoud Azihary, directeur de Cofidis Datamining.
Je m'abonneÀ LIRE AUSSI
Le scoring consiste à affecter une note globale à un individu à partir de
notes partielles, calculées sur des variables isolées ou en interaction. Cette
note est utilisée essentiellement pour classer les individus par ordre
ascendant ou descendant afin d'en sélectionner une partie pour une action
marketing, par exemple. La construction d'un score fait appel à la modélisation
prédictive, et l'on parle d'un score quand la variable à prédire n'a que deux
modalités possibles, de type oui/non. Cela vient du fait qu'à l'origine, le
"credit scoring" a consisté à prédire la probabilité d'être un mauvais ou un
bon payeur dans l'octroi d'un crédit. Dans la plupart des questions posées au
marketing, la réponse ne contient que deux modalités. Quand la variable à
prédire peut prendre plusieurs modalités, à choix discrets (voyage en avion, en
train ou en voiture exclusivement) ou à choix continus (préfère l'avion à 40 %,
le train à 35 % et la voiture à 25 %), la modélisation doit aller au-delà du
simple scoring. On parle alors de la modélisation multiprédictive.
Mesurer la rentabilité et la stabilité
Aujourd'hui, les
logiciels d'analyse des données offrent diverses méthodes de construction de
score, dont les plus courantes sont l'analyse discriminante, la régression
logistique binaire, les arbres de décision, les réseaux de neurones. En France,
Gilbert Saporta a créé une méthode de scoring utilisant l'analyse discriminante
sur des variables qualitatives, et Michel Masson a créé la première méthode de
scoring utilisée opérationnellement dans le crédit, basée sur une séquence
d'analyses canoniques non linéaires. Un des problèmes observés chez les gens
qui construisent des scores est la non-prise en compte de la rentabilité ou du
temps de la survenue d'un événement. Prenons un exemple pour la rentabilité :
si un prospect a une probabilité de répondre à une offre de 60 % et un autre de
40 %, je vais sélectionner le premier. Mais, si le premier achètera pour 4 000
euros et le second pour 8 000 euros, alors l'espérance de chiffre d'affaires du
premier sera de 2 400 euros et celle du second de 3 200 euros. Une méthode de
scoring construite comme cela sélectionnera plutôt le deuxième. Pour le temps
de survenue d'un événement, prenons l'exemple suivant : les scores d'octroi de
crédit prédisent la probabilité qu'un client devienne mauvais payeur. Mais un
client qui devient mauvais payeur après avoir été bon payeur pendant 15 ans
n'est pas le même qu'un client qui devient mauvais payeur au bout de 2 ans.
L'utilisation des modèles de durée peut apporter une réponse à ce genre de
problématique. L'essentiel, lorsque l'on construit un modèle de score, est de
se donner les moyens de trouver les interactions qui donnent le meilleur
modèle, à la fois en termes statistique pour la stabilité et en termes de
performance pour la rentabilité. Mais il ne faut pas négliger les éléments de
suivi de cette performance et les méthodes de mise à jour dans un marché
changeant, sinon cela risque de devenir coûteux.