Jour 1
- Présentation du Big Data et d’Hadoop
- Introduction au Big Data : de quoi s’agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Les technologies concernées
- Les outils Hadoop
- Les différents métiers du Big Data
- Les distributions Big Data
- Démonstration de traitements avec Hadoop
Jour 2
- Solutions Big Data avec Hadoop
- Projets, applications, plateformes
- Solutions de stockage des données
- Considérations Hardware
- Stockage
- CPU
- Mémoire
- Réseau
- Systèmes distribués
- La science et l’art de l’analyse prédictive
- Aspects économiques (OPEX, CAPEX, TRI)
Jour 3
- Architecture cluster applicative et technique avec Hadoop
- Les différentes étapes de gestion des données
- Les outils du marché
- L’ingestion
- Le stockage
- La transformation
- La restitution et la visualisation
Jour 4
- Installation et configuration d’un cluster Hadoop On-Premise et sur le Cloud Hadoop
- Installation d’une plateforme Hadoop
- Définir l’architecture
- Installation d’Hadoop / HDFS et d’autres composants
- Installation des principaux composants (Hive, Pig, Impala…)
- Configuration de l’environnement
- Etude des fichiers de configuration
- Modes de configuration (ligne de commandes, API Rest, serveur HTTP intégré, API natives)
- Configuration des services (HDFS, YARN, logs…)
- Configuration des droits d’accès
- Configuration d’un cluster hybride On-Premise / Cloud
- Configuration d’Hadoop
- Configuration de l’infrastructure Cloud
Jour 5
- Administration d’un cluster Hadoop
- Gestion des ressources (noeuds, disques, CPU, mémoire, réseau…)
- Administration de HDFS
- Administration de MapReduce
- Infrastructure physique des centres de données, serveurs, racks, réseaux
- Optimisation au niveau du cluster (HDFS, MapReduce), noeuds / OS et réseau (binding, jumbo frames)
- Planification des stratégies de sécurité et de récupération des données et de reprise sur panne

