loader image

Spark avec Databricks

Code stage

SPARKDATABRICKS01

Durée

21 heures | 3 jours

Z

Certification

non

Objectifs pédagogiques

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu

Niveau requis

Etre capable de développer en Scala ou Python et avoir des connaissances en SQL.

Public concerné

Développeurs d'applications, architectes, Data engineers, Data analysts.

Programme

Jour 1
Introduction
Qu’est-ce que Databricks ?
Quels sont les composants de Databricks ?
Démonstration : comprendre l’environnement de Databricks
Créer un compte sur Databricks
Créer un cluster sous Databricks
Considération matérielle
Databricks et le Cloud
Databricks : opérations
Création de votre premier projet Spark sous Databricks
Importer et exporter les données sous Databricks
Accéder aux différentes sources de données
Manager le cluster
Créer un job sous Databricks
Explorer les Data set
Lancer le Notebook
Premier code sous Notebook
Exporter le code sous Databricks
Exemples de travaux pratiques (à titre indicatif)
Explorer et configurer votre Databricks
Coder sur Databricks
Jour 2
Spark : introduction
Batch vs le temps réel dans le Big Data Analytics
Introduction à Spark
Vue d’ensemble de Spark
Ecosystème Spark
Spark vs Hadoop
Architecture Spark
Streaming Data Spark
Spark Standalone cluster
Spark Web UI
Jour 3
Azure Databricks
Qu’est-ce que Azure Databricks ?
Quels sont les composants d’Azure Databricks ?
Démonstration : comprendre l’environnement Azure Databricks
Chargement des données
Transformer et nettoyer les données
ETL dans Azure Databricks
Extraction à partir des Azure Storage Services
Lecture de plusieurs formats de fichiers
Application de schémas
Apprentissage automatique dans Azure Databricks
Streaming dans Azure Databricks
Spark : concepts
Remise à niveau Python / Scala
RDD (Resilient Distributed Dataset)
DataFrame
SQL
Streaming
MLlib
GraphX
Spark : opérations
Transformations dans le RDD (Resilient Distributed Dataset)
Actions dans le RDD
Spark SQL et DataFrame
SQLContext dans Spark SQL
Travailler avec les DataFrames
Implémentation d’un exemple pour Spark SQL
Intégration de Hive et Spark SQL
Support pour JSON et les formats des « Parquet Files »
Implémentation de la Data Visualization avec Spark
Chargement de données
Les requêtes Hive à travers Spark
Spark Streaming
Les transformations dans Spark Streaming
La « fault tolerance » dans Spark Streaming
Niveaux de parallélismes
Machine Learning
Types de données
Algorithmes et statistiques
Classification et régression
Clustering
Filtrage collaboratif
Le contenu de ce programme peut faire l’objet d’adaptation selon les niveaux, prérequis et besoins des apprenants.