Formation à distance training nexworld

Des formations en ligne et des retours d'expérience animés par des experts

TIRER PROFIT DU STREAM PROCESSING POUR EXPLOITER SES DONNÉES TEMPS RÉEL

Concepts, solutions et mise en oeuvre des plateformes Data temps réel

REF S016

Introduction

Un constat est aujourd’hui largement partagé : la quantité de données exploitables par les entreprises augmente inexorablement de jour en jour. Ces données sont issues du patrimoine applicatif en place mais aussi et surtout de nouveaux canaux « fil de l’eau » : capteurs, tracking des utilisateurs, omnicanalité et bien d’autres encore.

Ces nouvelles données représentent une opportunité pour les entreprises. Avoir la capacité d’exploiter ces informations le plus rapidement possible permet d’atteindre de nouveaux objectifs en termes d’efficacité, d’Agilité et de compétitivité.

Il est donc primordial pour les entreprises possédant déjà un Data Lake de faire évoluer l’Architecture actuelle pour passer du traitement par lot périodique au traitement temps réel. Pour les autres, c’est l’opportunité de prendre le virage du « Fast Data » en se dotant des dernières méthodes et techniques de traitement des données, détection d’événements pour répondre aux nouveaux enjeux de l’entreprise.

Suivre ce séminaire vous permettra de :

  • Prendre connaissance des opportunités apportées par le « Stream Processing »
  • Comprendre les concepts et concevoir une Architecture « Stream Processing »
  • Identifier les composants techniques d’une plateforme « Stream Processing » en fonction
    des usages

Quels usages, pour quels objectifs ?

Le secteur de la finance et les projets IoT sont les domaines pour lesquels l’approche Data Streaming est la plus répandue. Néanmoins, des cas d’usage dans tous les secteurs d’activité peuvent être implémentés pour tirer profit du Data Streaming.
Nous verrons dans ce chapitre les applications possibles du Streaming Processing :

  • Analyse temps réel
  • Visualisation temps réel
  • Streaming analytics
  • Traitement temps réel de la donnée et des événements
  • Complex Event Processing et prise de décision temps réel
  • Streaming ETL

Architecture « Data Streaming »

Les Architectures Data traditionnelles, fonctionnant à base de batchs lancés quotidiennement, ont évolué pour supporter les flux de données temps réel. Ces Architectures, connues sous le nom d’Architectures Lamdba et Kappa, nécessitent la mise en place de nouvelles fonctionnalités que nous vous détaillerons :

  • Les « Change Data Capture » (CDC) permettent de transformer les données manipulées par les silos applicatifs en flux de données exploitables de façon transverse
  • Les « streamers » de données, bus d’événements à haute vélocité, permettent de diffuser des flux de données importants en volume et en débit
  • Les solutions de « Data Stream Processing » offrent de nouvelles perspectives en termes de traitement et de prise de décision Métier sur ces données massives
    Quelle que soit votre maturité sur les sujets Data, nous vous exposerons les Architectures cibles à mettre en place ou comment les faire évoluer vers ces modèles.

Vue d’ensemble des concepts du « Data Stream Processing »

Dans la plupart des Architectures actuelles, l’analyse de données est réalisée en exécutant des requêtes sur des données historiques au « repos ».

Le « Data Stream Processing » analyse les données en mouvement au sein du SI, offrant ainsi des capacités de traitement radicalement et fondamentalement différentes de l’approche traditionnelle.

Les solutions de « Data Stream Processing » ont donc leurs exigences propres :

  • Traitement et requêtage temps réel
  • Garantie de traitement et d’ordre
  • Scalabilité et partitionnement
  • Croisement des données passées issues de différentes sources avec les données temps réel
  • Intégrité et résilience

Autant de concepts qu’il est nécessaire de comprendre et de maîtriser avant de passer à l’étape de mise en oeuvre d’une plateforme de Data Streaming. Nous vous proposons de les détailler et de vous fournir une grille de lecture de ces solutions technologiques.

Panorama des solutions

Nous vous proposons de vous présenter les différentes offres du marché, en s’appuyant sur la grille de lecture précédemment définie.

Voici une liste non exhaustive des solutions qui seront comparées :

Solutions open source :

  • Apache Flink
  • Apache Storm
  • Apache Beam
  • Kafka et Kafka Streams
  • Spark Streaming

Solutions Cloud :

  • Amazon Kinesis et Kinesis Data Streams
  • Google Pub/Sub et Dataflow
  • Azure Event Hubs and Stream Analytics
  • IBM Event Streams et Streaming Analytics

Solutions commerciales:

  • Confluent
  • Hortonworks
  • Cloudera
  • MapR
  • Software AG Apama

Pour chacune de ces solutions, nous vous fournirons une description synthétique des fonctionnalités offertes ainsi que leurs points forts et faibles.

Mise en oeuvre d’un pipeline temps réel

Pour clore cette journée, nous mettrons en application au travers d’une démonstration tous les concepts vus précédemment.