loader image

Data Engineering avec Kafka, Cassandra et Spark

Code stage

KAFKACASSANDRASPARK01

Durée

28 heures | 4 jours

Z

Certification

non

Objectifs pédagogiques

  • Présenter les concepts fondamentaux de Spark, Cassandra et Kafka
  • Développer une application orientée use case avec Spark, Cassandra et Kafka
  • Définir le Data Engineering
  • Décrire l’architecture Big Data de manière approfondie.

Niveau requis

Avoir des connaissances sur Shell, Python et/ou Scala.

Public concerné

Développeurs, architectes, Data Analysts et/ou Data Engineers.

Programme

Jour 1

  • Introduction à Kafka
  • Kafka : une plateforme de données de flux
  • Un aperçu de Kafka et de son efficacité
  • Producers
  • Brokers
  • Consumers
  • Installation et architecture
  • Installation et options avancées
  • Fichiers journaux de Kafka
  • Réplication et fiabilité
  • Chemins d’écriture et de lecture de Kafka
  • Partitions, consumer groups et scalability
  • Développement et mise en oeuvre
  • Cas d’utilisation de Kafka Streams
  • Kafka Streams
  • Etude d’une application et usage de Kafka Streams

Jour 2

  • Introduction à Cassandra
  • Introduction au NoSQL
  • Prérequis de Cassandra
  • Installation
  • Fichier de configuration : conf/cassandra.yaml
  • L’architecture
  • Les réplications
  • Exemples de travaux pratiques (à titre indicatif)
  • Commandes de base
  • Connexion au système de base de données
  • Création de colonnes
  • Insertion
  • Modification recherche
  • Définition des colonnes et des types de données
  • Définition d’une clé primaire
  • Reconnaître une clé de partition
  • Le CQL : Cassandra Query Language
  • Exécution de scripts
  • Data Modeling
  • Créer une application
  • Ajout des noeuds

Jour 3

  • Apache Spark
  • Introduction à Spark
  • Vue d’ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Installation et configuration
  • Exemples de travaux pratiques (à titre indicatif)
  • Remise à niveau Python / Scala
  • Spark :
  • RDD (Resilient Distributed Dataset)
  • DataFrame
  • SQL
  • Streaming
  • MLlib
  • GraphX
  • Création d’applications Spark

Jour 4

Projet avec la mise en oeuvre d’une solution bout en bout (ingestion, stockage et calcul) via :

  • Kafka
  • Cassandra
  • Spark

Le contenu de ce programme peut faire l’objet d’adaptation selon les niveaux, prérequis et besoins des apprenants.