Les projets Big Data : des projets comme les autres ?

De prime abord, les composantes et le besoin sont similaires : on embarque hommes et technologies, d’un point A (l’existant à date) vers un point B, pour produire un résultat unique et dans une durée de temps délimitée.

De notre point de vue, les phases avant-projet et exécution doivent être appréhendées différemment. Nous allons en lister quelques unes ci-dessous.

 

La phase avant-projet

Pour nombre d’organisations, la promesse de Big Data reste assez floue. Quand elles décident de se lancer, c’est souvent suite à une décision descendante de la hiérarchie (investissement de la concurrence, sensibilité à une offre ou au buzz, etc.). Le middle management y voit au mieux une contrainte, au pire une menace et c’est aux acteurs opérationnels de prouver la valeur de ces outils pour leur métier.

 

Identifiez un sponsor transverse et poser les pieds sur terre

Contrairement au PSG, le big data n’est pas magique. Il faut donc avant tout, casser l’idée d’un puits (voire fourre-tout) de données qui ne nécessite aucune structuration ou modélisation,  et qui devine automatiquement le besoin de son utilisateur. Le sponsor doit se faire une idée concrète des possibilités et de l’engagement nécessaire pour déployer et utiliser cette technologie. Il doit par ailleurs avoir une influence sur l’ensemble des services concernés par la solution.

 

Projetez-vous dans un futur désiré

Opérationnel de mon état, coincé dans mes réalisations passées et la réalité de mon présent, comment puis-je me projeter dans un futur désiré avec la projection d’un monde dont je ne maîtrise ni les codes ni la promesse ?

L’utilisation de méthodologies telles que le design thinking ou la design fiction, permet de projeter l’équipe dans un usage concret et réaliste de la solution. De plus, il favorise la compréhension mutuelle des attentes et problématiques entre les différents membres d’une équipe aux horizons souvent très variés.

 

Identifiez les use cases

Dans le cadre d’une expérimentation ou d’une découverte, une approche  agile semble préférable. La démarche est donc classique : une fois l’ambition définie, elle est décomposée en cas d’usages et user stories simples, implémentables rapidement et priorisables.

 

Assurez-vous de la qualité des données (le théorème de l’œuf et la poule)

Souvent on est confronté à la problématique suivante:  » J’ai sélectionné mon use case et identifié les données et métriques dont j’ai besoin. Cependant, rien n’est acquis. Qui produit la donnée ? Le format est-t-il acceptable et constant ? La fréquence de production est-elle homogène avec les autres données ? La donnée est-elle facilement récupérable (sécurité, connecteur technique disponible) ? La personne propriétaire de la donnée est-elle identifiée ? Est-elle d’accord avec le projet ? Si la réponse à l’une de ces questions n’est pas satisfaisante, il faut entreprendre de une mise à niveau ⇒ faire évoluer une application pour changer le format ou corriger des logs, introduire une API …

Bref, la donnée devient un asset. L’organisation doit la traiter de la sorte : il lui faut définir une vraie stratégie d’asset management autrement dit, de la gouvernance des données.

 

L’exécution

Se lancer dans un projet Big Data, c’est comme avancer dans une forêt vierge. On a devant soi une végétation immense en mouvement permanent dans laquelle on se fraie un chemin petit à petit avec une visibilité réduite. Ambitionner de réaliser une roadmap est utopique.

 

Pilotez par les délais

Soyons honnêtes, on ne sait pas vraiment où on va arriver quand on part. Il est donc préférable de piloter par les délais : se fixer des livrables concrets que l’on peut produire en un temps réduit. Des méthodes agiles de type Scrum se prêtent particulièrement bien à cet exercice : une succession de sprints de 3 semaines (par exemple 5 ou 6 sprints) permet de délivrer des résultats concrets en un temps limité.

 

Formez une équipe intégrée

Pour mener à bien le projet, il est nécessaire de constituer une « feature team », c’est-à-dire une équipe pluridisciplinaire objectivée sur un livrable unique. Cette équipe sera le plus souvent constituée de :

  • Experts data & développeurs : data scientist, data engineer. En charge de structurer, indexer, modéliser et représenter les données
  • Experts métiers : ils donnent du sens aux données. Ce sont eux les plus à même de proposer des cas d’usages
  • Experts IT : ils sont capables d’identifier où sont disponibles les données et de les connecter à l’outil big data

Tous ces individus n’ont généralement pas l’habitude de travailler ensemble (les compétences sont ici très hétérogènes), dans un fonctionnement aussi transverse et prolongé dans le temps. Prenez le temps de construire l’esprit d’équipe !

En particulier pendant la phase de découverte, il est très important que l’ensemble de l’équipe soit disponible (idéalement colocalisé) pour pouvoir partager et saisir l’ensemble des problématiques individuelles.

 

Choisissez votre chemin d’exploration

Le problème que l’on essaie de résoudre a deux entrées principales : le use case que l’on souhaite réaliser et les données qui sont disponibles. En fonction de la maturité de chacun, il est possible de partir de l’un ou l’autre pour atteindre un objectif satisfaisant.

L’Objectif est d’extraire de la connaissance à partir des données. Les étapes de « KDD-process » sont :

  • Compréhension du domaine applicative
  • Sélectionner les données
  • Préparation des données
  • Réduction et projection des données
  • Choix de classe d’algorithme
  • Exécution et l’interprétation des résultats
  • Validation par expert métier

 

Le point de départ est la cible métier qui est mature, et la data science s’emploie à déployer les bons modèles pour valider les hypothèses client ou les affiner afin de tirer le maximum de valeur de la donnée.

La méthode CRISP-DM se décompose en 6 étapes:

  • Compréhension métier: Il faut bien comprendre les éléments métiers et le problème à résoudre.
  • Compréhension données: Identifier les données à analyser.
  • Préparation des données: Nettoyage et recodage des données.
  • Modélisation: Choix d’algorithme de Machine Learning
  • Evaluation: Vérifier les résultats obtenus en s’approchant des objectifs posés au début de projet.
  • Déploiement: Pousser le modèle obtenu Jusqu’en production en passant par un projet.

 

Choisissez la solution technique

Trois possibilités s’offrent à vous pour répondre à votre besoin. Ne pas hésiter à vous faire accompagner dans cette phase de choix par les sachants.

Et après ?

Pour permettre à nos chers lecteurs de s’approprier pas à pas nos retours d’expériences, nous allons détailler la suite de la phase d’exécution dans un autre article, où une attention particulière sera donnée à la phase de contrôle des résultats.

 

Bonne lecture et à très vite,

Newsletter

Recevez notre newsletter bi-mensuelle

Commenter