Data Engineering avec Kafka, Cassandra et Spark
Code stage
KAFKACASSANDRASPARK01
Durée
28 heures | 4 jours
Certification
non
Objectifs pédagogiques
- Présenter les concepts fondamentaux de Spark, Cassandra et Kafka
- Développer une application orientée use case avec Spark, Cassandra et Kafka
- Définir le Data Engineering
- Décrire l’architecture Big Data de manière approfondie.
Niveau requis
Avoir des connaissances sur Shell, Python et/ou Scala.
Public concerné
Développeurs, architectes, Data Analysts et/ou Data Engineers.
Programme
Jour 1
- Introduction à Kafka
- Kafka : une plateforme de données de flux
- Un aperçu de Kafka et de son efficacité
- Producers
- Brokers
- Consumers
- Installation et architecture
- Installation et options avancées
- Fichiers journaux de Kafka
- Réplication et fiabilité
- Chemins d’écriture et de lecture de Kafka
- Partitions, consumer groups et scalability
- Développement et mise en oeuvre
- Cas d’utilisation de Kafka Streams
- Kafka Streams
- Etude d’une application et usage de Kafka Streams
Jour 2
- Introduction à Cassandra
- Introduction au NoSQL
- Prérequis de Cassandra
- Installation
- Fichier de configuration : conf/cassandra.yaml
- L’architecture
- Les réplications
- Exemples de travaux pratiques (à titre indicatif)
- Commandes de base
- Connexion au système de base de données
- Création de colonnes
- Insertion
- Modification recherche
- Définition des colonnes et des types de données
- Définition d’une clé primaire
- Reconnaître une clé de partition
- Le CQL : Cassandra Query Language
- Exécution de scripts
- Data Modeling
- Créer une application
- Ajout des noeuds
Jour 3
- Apache Spark
- Introduction à Spark
- Vue d’ensemble de Spark
- Ecosystème Spark
- Spark vs Hadoop
- Installation et configuration
- Exemples de travaux pratiques (à titre indicatif)
- Remise à niveau Python / Scala
- Spark :
- RDD (Resilient Distributed Dataset)
- DataFrame
- SQL
- Streaming
- MLlib
- GraphX
- Création d’applications Spark
Jour 4
Projet avec la mise en oeuvre d’une solution bout en bout (ingestion, stockage et calcul) via :
- Kafka
- Cassandra
- Spark
Le contenu de ce programme peut faire l’objet d’adaptation selon les niveaux, prérequis et besoins des apprenants.