
REF S024
Durée : 1 jour - Prix : 950€ HT/Participant
METTRE LE MÉTIER AU CŒUR DU MACHINE LEARNING EN DEVENANT CITIZEN DATA SCIENTIST
Concepts, processus d’apprentissage automatique et fluidification des échanges entre les Métiers et les Data Scientists

Introduction
Une fois le socle Big Data et Data Lake posé, il est courant d’observer une difficulté dans le modèle de maturité de la plateforme Data. En effet, le processus de fabrication de modèles prédictifs ou de décision est long, complexe et fastidieux, car le langage est loin d’être commun aux experts Métiers et Data Scientists.
Il est désormais primordial de fournir aux Métiers un outillage permettant d’explorer facilement et de façon autonome les données du Data Lake. Une fois les données Métiers et signaux identifiés éligibles à la recherche d’information, les Métiers doivent pouvoir exécuter des modèles mathématiques « standards » pour valider une piste de recherche qui sera transmise, le cas échéant, aux Data Scientists. Certains cas d’usage ne nécessitent pas l’intervention d’un Data Scientist en amont. L’approche Data Citizen a pour vocation de fluidifier et raccourcir le time to deliver.
Cette approche permet aux Métiers d’être en mesure de challenger les livraisons des Data Scientists et aux Data Scientists de se focaliser sur des problèmes plus complexes et à plus forte valeur ajoutée.
Objectifs
Ce séminaire a pour but de donner les grands concepts de la Data Science aux Métiers pour devenir Citizen Data Scientists. Il se découpe en deux grandes parties.
La première partie a pour vocation de présenter tous les grands concepts de la Data Science, allant de la présentation des potentiels apports, jusqu’aux limites, en passant par les différents sujets qui peuvent être adressés. Cette partie a aussi pour objectif de mettre en exergue toute la gestion de projet relative à la démarche de réalisation d’un projet de Data Science avec les différents types de profils à intégrer pour le succès du projet.
La deuxième partie regroupe des aspects plus techniques. Elle décrit toutes les grandes méthodes utilisées pour créer des algorithmes d’apprentissage automatique, déclinaison technique des concepts décrits dans la partie précédente. Cette partie ne demande aucune base en mathématiques, tous les concepts seront vulgarisés pour leur bonne compréhension par un large public. Cette partie a pour objectif de donner les compétences suffisantes pour qu’une personne du Métier puisse être autonome sur la création de modèles simples d’apprentissage automatique. Il a aussi pour but d’aider les responsables de projet à mieux évaluer la « boîte noire » que peut représenter le processus de Data Science.
Ce séminaire vous permettra :
- De comprendre et définir les différentes briques d’un projet de Data Science
- D’identifier les parties prenantes et les profils nécessaires à la réalisation d’un projet de Data Science
- D’avoir une vue d’ensemble des grands types de problèmes d’apprentissage automatique
- D’être capable de modéliser les principaux algorithmes à partir d’outils « clés en main »
- D’être en mesure d’évaluer la performance d’un modèle d’apprentissage automatique
- De connaître la valeur ajoutée de la Data Science dans des contextes Métiers
- De mieux pouvoir évaluer le travail de Data Scientists experts
Concepts de l’apprentissage automatique
Les grands types d’apprentissage automatique
Les tâches d’apprentissage automatique sont classifiées en trois grandes catégories : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Nous détaillerons les problèmes auxquels s’adressent chacune des catégories, ainsi que les résultats attendus.
Démarche de réalisation d’un projet d’apprentissage automatique
Le succès d’un projet d’apprentissage automatique réside dans la compréhension de la structure de sa démarche de réalisation. De la formalisation du problème au déploiement des algorithmes en production en passant par l’étape de modélisation, les étapes d’un projet de Data Science sont nombreuses et toutes essentielles au succès du projet. Nous détaillerons les défis de chaque étape ainsi que la manière de les réaliser.
Profils intervenant sur un projet de Data Science
Un projet de Data Science fait intervenir des profils divers ayant des compétences spécifiques et variées sur chacune des étapes. Nous répondrons ainsi aux questions :
- Quels sont les types de profil associés à chaque étape d’un projet de Data Science ?
- Quelle est la place d’un Citizen Data Scientist dans la démarche de réalisation d’un projet de Data Science ?
Outils et langages
Les langages et librairies de programmation ainsi que les outils de code ou de Low-Code sont nombreux dans ce domaine. Nous explorerons les principales solutions, leurs intérêts, leurs champs d’applications et leurs limites.
Deep-dive dans le processus d’entraînement des modèles supervisés
L’apprentissage automatique supervisé consiste à détecter des relations sur des jeux de données pour réaliser des prédictions.
Dans ce chapitre nous détaillerons les algorithmes d’apprentissage automatique supervisés, le processus de modélisation de ces algorithmes (entraînement – évaluation – amélioration) et les métriques d’évaluation des modèles.
Types d’algorithmes d’apprentissage automatique supervisés | Métriques d’évaluation des modèles supervisés |
Modèles linéaires | Matrice de confusion |
Modèles non-linéaires | Accuracy |
Méthodes ensemblistes | Précision, Rappel et F1 Score |
AUC ROC | |
Mean Square Errors |
Deep-dive dans le processus d’entraînement des modèles non supervisés (clustering)
L’apprentissage automatique non supervisé facilite la découverte de patterns dans la donnée. Nous aborderons ici les méthodes de clustering dont un des objectifs principaux est de segmenter la donnée en catégories. Nous détaillerons les algorithmes de clustering, le processus de modélisation de ces algorithmes et les métriques pour évaluer les modèles.
Types d’algorithmes d’apprentissage automatique non supervisés | Métriques d’évaluation des modèles non supervisés |
Méthodes par regroupement hiérarchique | Elbow method |
Algorithmes basés sur la densité | Silhouette score |
Méthodes basées centroïdes | Rand index |
Démonstration avec un outil de Citizen Data Scientist
Aujourd’hui, des plateformes rendent accessible la Data Science aux Métiers en facilitant l’utilisation d’algorithmes d’apprentissage automatique par les Citizen Data Scientist. Nous mettrons en application les concepts vus précédemment grâce à une démonstration.