Recommander des produits bancaires avec l’intelligence artificielle

Afin d’accompagner toujours mieux nos clients du secteur bancaire dans leurs problématiques de recommandation de produits, notre datalab s’est engagé dans une compétition Kaggle lancée par la banque espagnole Santander.

Cette compétition de Data Science regroupe des experts en machine learning du monde entier.  Au- delà de l’apport immédiat pour Santander cette compétition permet de faire progresser l’état de l’art. Dans ce contexte le datalab weave s’est placé dans les meilleurs 8% en terminant 160ème sur 1800 équipes.

Tout en faisant la promesse de ne pas rentrer dans les détails techniques, cet article propose de :

  • Présenter le déroulement général d’une telle compétition
  • Fournir plus de détails sur cette compétition en particulier
  • Vous mettre dans la peau d’un data scientist en présentant le travail réalisé, les outils utilisés et les résultats obtenus
  • Ouvrir les pistes d’un approfondissement des résultats obtenus

Déroulement d’une compétition

Lors d’une compétition de Data Science, l’organisateur met à disposition un jeu de données d’entraînement (des exemples) représentant le passé. Il précise l’indicateur (marketing, médical, environnemental) à modéliser, c’est à dire dont il faut comprendre le comportement.

L’organisateur met également à disposition un second jeu de donnés de test qui représente le futur mais cette fois sans l’indicateur. L’organisateur possède les résultats du futur mais les cache aux compétiteurs. Les compétiteurs soumettent leurs prédictions sur ces données test et l’organisateur les compare avec ses résultats du futur. En fonction de la précision des prédictions, un classement est établi.

Le classement des compétiteurs

Exemple :

  • Indicateur à modéliser : Les produits achetés par les clients
  • Jeu d’entraînement : Les utilisateurs de 2015 avec leurs produits achetés
  • Jeu de test : Les utilisateurs de 2016 dont il faut deviner les produits achetés

La compétition Santander

Contexte

Santander est la première banque espagnole et l’une des principales d’Europe. Elle fait appel à la plateforme Kaggle et sa communauté de Data Scientists pour produire des recommandations de produits bancaires. Le but est d’observer les produits bancaires achetés par les clients de Santander afin de pouvoir ensuite recommander aux clients les produits achetés par les autres clients similaires.
La compétition a duré 2 mois et proposait 60 000$ à partager entre les vainqueurs.

Les données

  • Données anonymisées d’un million utilisateurs pendant un an et demi (janvier 2015 à mai 2016)
  • Informations des produits possédés le mois précédent
  • Informations sociodémographiques (sexe, âge, revenu, …)
  • 24 produits financiers possibles à recommander

Le jeu de test quant à lui comportait uniquement des données à partir de juin 2016.

L’objectif

Formuler 7 recommandations les plus pertinentes possibles de produits à chaque client. Ces recommandations doivent être ordonnées par ordre de pertinence.

Dans la peau d’un data scientist

Pour réussir à extraire l’information pertinente du jeu de données, plusieurs défis doivent être relevés.

Maîtrise technique

  • Manipulation de 12 millions de lignes de données
  • Optimisation du code et des calculs
  • Réglage des algorithmes

Comprendre les clients


Les algorithmes sont puissants car ils sont aptes à apprendre automatiquement des données mises à leur disposition. Néanmoins, il faut tout d’abord leur fournir un maximum d’informations pertinentes pour les aider. C’est une part importante du travail de data scientist que de créer de l’information pour aider les algorithmes à mieux comprendre les clients.
Dans ce contexte, les informations les plus intéressantes à calculer et à fournir aux algorithmes pour la compétition étaient :

  • Le nombre de produits actuellement possédés
  • Le nombre de produits achetés/résiliés pendant les derniers mois
  • Depuis quand un produit est possédé/résilié
  • Poids d’un produit parmi ceux possédés
  • Revenu des individus comparé à leur région (connaître le niveau de vie relatif)
  • Des transformations mathématiques diverses

Une autre particularité à prendre en compte est que certains produits ont un comportement saisonnier (plus ou moins vendu selon les périodes de l’année) tandis que d’autres ont un comportement tendanciel (un produit populaire en 2015 mais plus en 2016).

Les outils de Machine Learning

Deux approches machine learning ont été testées.
La première approche est de calculer une probabilité (score) d’achat pour chaque produit puis de recommander les produits les plus probables. C’est une approche dite de classification.

La seconde approche est d’optimiser directement les rangs des produits indépendamment de leur score. C’est une approche dite de ranking. On ne souhaite pas connaître avec précision la probabilité (score) des produits mais simplement bien les ordonner.

Ces deux approches fournissent toutes les deux des bons résultats. Si, théoriquement, le ranking est plus adapté au problème, la classification permet de plus facilement gérer le problème de saisonnalité/tendance.

L’algorithme utilisé pour ces deux approches est les arbres de décisions itératifs (Boosted Trees).

Les Boosted Trees pour les nuls :

En vacances chez mes parents pour la période de noël je me suis fait mal au bras en tombant.

  • Ma maman (arbre de décision 1) au vu de mon état, me conseille d’aller voir mon médecin généraliste.
  • Mon médecin généraliste (arbre de décision 2) m’ausculte et me prescrit une radio.
  • Le radiologue (arbre de décision 3) me fait une radio et identifie que je me suis cassé le bras.

Chaque arbre a affiné les prédictions du précédent pour in fine produire le meilleur diagnostic possible.

Résultats

Notre approche mixte (classification et ranking) nous a permis de finir 160ème sur 1800 équipes. La compétition a été remportée par un membre d’un datalab américain, vainqueur de multiples compétitions. La seconde place est pour une personne récemment recrutée par Google Deepmind. A noter un peloton de tête très serré entre les 200 premiers.

Performance de la solution

Les performances des solutions proposées sont de l’ordre du tableau ci-dessous.

Le produit que le client achète en réalité était la première recommandation dans 84,5% des cas, parmi les 2 premières recommandations (top2) dans 91,2% des cas, etc.

Aller plus loin et amplifier la valeur

La solution proposée est élégante mathématiquement et les chiffres ci-dessus confirment qu’elle prédit efficacement des produits que les clients vont effectivement aimer/acheter. Pour autant il est possible d’amplifier le chiffre d’affaires additionnel qu’elle génère.
Prenons un exemple exagéré pour un système de recommandation de livres. Si un utilisateur achète le tome 1 du Seigneur des anneaux, recommander le tome 2 et 3 n’apporte probablement pas d’achat additionnel. L’utilisateur a déjà connaissance des tomes suivant et a déjà pris une décision en fonction qu’il a aimé ou non le premier. Lui faire découvrir un roman moins connu aurait été plus judicieux.

Le modèle prédictif calculant l’appétence des utilisateurs pour chaque produit constitue une première étape et non une finalité. L’objectif final doit être d’influer sur le comportement des utilisateurs pour maximiser les ventes.

Cette utilisation de la Data Science comme un outil performant et maitrisé au sein d’une démarche plus globale de réponse aux enjeux de nos clients illustre parfaitement notre volonté d’hybridation des compétences pour modéliser, expérimenter et optimiser avec nos clients la meilleure réponse possible à leurs problématiques.

Le datalab weave,

Newsletter

Recevez notre newsletter bi-mensuelle

Commenter