Jour 1
- Vue d’ensemble du Big Data
- Introduction au Big Data : de quoi s’agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Big Data et Cloud SaaS, PaaS et FaaS
- Les différents métiers du Big Data
- Data Lakes vs Data Warehouses vs Lakehouses
- Aspects économiques :
- TCO (Total Cost of Ownership)
- Opportunity Cost (coût d’opportunité)
- ROI (retour sur investissement)
- Travaux pratiques sur Hadoop
- Aspects réglementaires (RGPD) et éthiques
- Architecture Hadoop
- Les outils de stockage
- Les exigences de stockage
- Le théorème de CAP
- Le NoSQL
- L’écosystème Hadoop
- HDFS
- MapReduce
- Tez
- Les outils d’ingestion et d’analyse de données
- Spark
Jour 2
- Les outils d’ingestion et d’analyse de données (suite)
- Pig
- Hive
- Impala
- La mise en qualité
- Le stockage de données
- Exemple de travaux pratiques (à titre indicatif)
- Création d’un pipeline simple sur Hadoop
- Fondamentaux du Data Engineering
- Définition du Data Engineering
- Cycle de vie et workflow du Data Engineering
- Technologies du Data Engineering
- Evolution du métier de Data Engineer
- Compétences, activités et responsabilités du Data Engineer : Type A vs Type B
- Le Data Engineer au sein d’une Data Team
- Parties prenantes : producteurs upstream, consommateurs downstream
- Data Maturity d’une organisation
- Data Engineering, Agilité, DevOps et DataOps
- Gouvernance et qualité des données
- Nouvelles tendances du Data Engineering: Lakehouse, orchestration, Pipelines as Code
Exemple de travaux pratiques (à titre indicatif)
Mise en pratique par des études de cas
Jour 3
- NiFi
- Ingestion des données avec NiFi
- Différence entre données froides et données chaudes
- Présentation des outils et technologies du Big Data
- Installation et configuration de NiFi
- Vue d’ensemble de l’architecture NiFi
- Approches de développement
- Outils de développement d’applications et état d’esprit
- Extraction, transformation et chargement (ETL) des outils et de la mentalité
- Exemple de travaux pratiques (à titre indicatif)
- Mise en oeuvre de NiFi
- Visualisation des données avec Kibana
- Préparer les données pour Elasticsearch
- Construire un tableau de bord Kibana
- Créer des visualisations
Exemple de travaux pratiques (à titre indicatif)
Ingestion de données avec NiFi
Jour 4
- Streaming des données avec Kafka
- Comprendre comment Kafka utilise des logs
- Les « Topics »
- Les producteurs Kafka
- Les « Brokers »
- Les consommateurs Kafka
- Différences entre traitement batch et traitement en streaming
Exemples de travaux pratiques (à titre indicatif)
Construire et tester un cluster Kafka et Zookeeper
Jour 5
- Traitement des données avec Spark
- Introduction à Apache Spark
- Architecture de Spark
- Apache Spark MLlib
- Apache Spark Streaming
- Apache Spark SQL
- Apache Spark GraphX
Exemple de travaux pratiques (à titre indicatif)
Construire un pipeline en temps réel avec Kafka et Spark

