Industrialisation de Modèles

Mettez à l’échelle vos projets de Data Science pour en tirer pleinement profit !

L’enjeu de l’industrialisation de modèle de Machine Learning est double :

  • Déploiement du modèle
  • Apport des données en temps réel ou en batch pour réaliser les prédictions à partir des modèles de Machine Learning

Déploiement du modèle

Cette phase consiste dans un premier temps à choisir sur quel type d’infrastructure le modèle doit être déployé (Cloud, On-premise, hybride) et définir les technologies pour réaliser l’entrainement (Spark ML, AWS SageMaker, Azure Machine Learning, …). Dans un second temps, l’objectif est de créer un pipeline de déploiement capable de fonctionner avec l’ensemble de vos données. Les principales étapes sont les suivantes :

  • La collection automatique des données centralisées dans un point de référence,
  • L’application des opérations de nettoyage et de feature engineering définies par les Data Scientists
  • La création du modèle avec les hyper-paramètres spécifiés par les Data Scientists ou basés sur des Grid-search
  • La création d’un script de prédiction
  • L’exposition du modèle avec par exemple une API REST.

Finalement, l’automatisation du pipeline d’entraînement avec des méthodes d’A/B Testing pour vérifier la performance des nouveaux modèles et des scripts d’alerte avec pour objectif de tester si un modèle en production passe en-dessous d’un taux de prédictions correctes inférieures à un certain seuil.

Nexworld vous propose de vous accompagner sur cette phase avec un profil « technique » appelé « Machine Learning Engineer ». Ce type de profil a la capacité de comprendre les algorithmes réalisés par les Data Scientists et de les passer à l’échelle avec des technologies comme SparkML.

Apport des données en temps réel ou en batch pour réaliser les prédictions à partir des modèles de Machine Learning

Cette phase consiste à désigner le flux de données qui doit arriver jusqu’au modèle pour réaliser les prédictions. Ce flux peut être fait par batch ou en temps réel. Cette phase n’est pas à négliger, même si elle peut paraître plus simple que la première, il n’en est rien.
L’approche temps réel apporte toutes les contraintes spécifiques à la scalabilité, la consistance des données, le load balancing des instances du modèles de Machine Learning etc…

L’approche batch, plus connu, apporte moins de contrainte que la première. Cependant, une mauvaise conception dans cette phase pourra aisément entraîner des temps de traitement très longs avec les coûts associés.

Ces deux approches font intervenir les mêmes problématiques que celles présentées dans la partie Data Engineering et Data Streaming
Nexworld vous propose de vous accompagner sur cette phase avec deux types de profils :

  • Le Data Engineer capable de créer ces flux de traitements temps réel ou batch
  • Le Machine Learning Engineer capable de retranscrire toutes les spécificités techniques du modèle et le formatage des données qui est attendu en entrée du modèle au Data Engineer

Technologies associées :

  • Spark ML
  • Azure Machine Learning
  • AWS SageMaker
  • GCP ML Engine/AI platform

Nous vous accompagnons

Nexworld intervient à toutes étapes de votre projet, quel que soit votre niveau de maturité :

  • Découvrir de nouveaux sujets, avoir une réflexion stratégique
  • Définir des cas d’usage, développer des MVP
  • Approfondir certains sujets
  • Créer de nouveaux Business Modèles
  • Former vos équipes pour démontrer le potentiel de nos expertises
  • Mettre en œuvre un périmètre défini
  • Obtenir un retour d’expérience
  • Industrialiser afin de monter en échelle

Nous vous formons

Nos références sur l’Industrialisation de modèles

En savoir plus avec nos experts

Architecture Fast Data : par où commencer ?

Ce n’est plus un secret pour personne, les données sont aujourd’hui porteuses d’un potentiel incroyable avec une quantité toujours plus importante d’année en année. Pourtant, même si les entreprises sont conscientes des masses de données qu’elles ont à leur disposition, la question de savoir comment les exploiter peine toujours à être traitée.

Kafka, pierre angulaire des Architectures Fast Data ?

Comment éviter que le Big Data ne devienne un « Big Mess » ? C’est pour répondre à cette question qu’en 2009 les équipes de LinkedIn, confrontées à des problématiques d’intégration de données auxquelles les outils disponibles ne répondaient pas, élaborent un nouveau bus de messages distribué : Kafka.

Kafka ou Artemis : Comment bien choisir son broker de messages ?

Une communication asynchrone ne peut se faire sans la présence d’un MOM (Message Oriented Middleware) entre le client et le serveur. Un tel middleware va permettre de mettre en attente les messages envoyés par le client en direction du serveur, et inversement.

Big Data : Splunk versus la Suite Elastic

Avec le Big Data et l’explosion du volume de données, une question s’impose : comment exploiter ces données et en extraire de la valeur ? Deux outils se disputent aujourd’hui la place de leader dans le domaine : Splunk (le propriétaire), et la Suite Elastic (l’open source)