Concepts et mise en oeuvre de Hadoop Réf : HDP01

Par Laurent Jolia-Ferrier

Comprendre le Big Data, l'écosystème Hadoop et sa mise en oeuvre au sein du SI.

Durée :
4 jours
Lieux :
Paris

Partage :

  • Twitter
  • Facebook
  • E-mail
  • Linkedin
  • Viadeo

Soyez alertés par e-mail des nouvelles sessions : Poser une alerte,

Description

Le Big Data n’est plus réservé aux géants du Web, c’est maintenant l’affaire de tous. On estime que 80% des données d’une entreprise sont non-structurées et inexploitées… et le volume augmente de plus en plus rapidement. De plus, les infrastructures modernes nous permettent de conserver de plus en plus de données à un moindre coût : rien n’est à jeter, tout peut se révéler utile.
Cette formation très complète sur Hadoop vous permettra de comprendre en quoi le Big Data est en rupture avec le paradigme informatique classique, de connaître les principaux composants de l'écosystème de Hadoop, faire les bons choix en termes de matériels, de logiciels, d'outils de développement... ; et bien sûr, disposer des connaissances nécessaires pour réfléchir à l'intégration de Hadoop dans votre SI.

Objectifs pédagogiques

A l'issue de la formation, les participants seront en mesure de :
  • Appréhender ce qu'est le Big Data et comment extraire plus de valeur des données disponibles,
  • Exploiter pleinement le potentiel de Hadoop (HDFS, MapReduce, YARN, Spark...),
  • Choisir les outils de développement adaptés à leur environnement,
  • Développer un programme Hadoop simple en Java, PigLatin et HiveQL,
  • Connaître les principaux composants de l'écosystème de Hadoop,
  • Appréhender les enjeux de la sécurisation d'un cluster Hadoop.


Public

Responsables de projets Big Data et futurs développeurs Hadoop

Pré-requis

Connaissances de Java et SQL

Type

Stage pratique

Méthode pédagogique

Alternance de présentation magistrale, études de cas et d’exercices pratiques sur poste individuel (60%-40%).

Plan de cours


1ère journée de formation : Introduction à Hadoop

Introduction
Les origines du Big Data
La donnée en tant que matière première

Présentation générale d’Hadoop
Pourquoi Hadoop ?
Les concepts de Hadoop
Hadoop Distributed File System ( HDFS)
Exercice 1 : Les commandes HDFS de base
MapReduce
Exercice 2 : compiler et exécuter un programme Hadoop
L'écosystème de Hadoop

Les différents modes de fonctionnement de Hadoop
Mode local
Mode pseudo-distribué
Mode totalement distribué

Travaux pratiques
Installer Hadoop en mode pseudo-distribué sous Linux ou Windows

2nde journée de formation : Programmation Hadoop

Introduction au développement
WordCount : schéma logique
WordCount  en pseudo-code
WordCount en Java
Travaux pratiques : Écrire, compiler et exécuter WordCount

Faire les bons choix
Ancienne API ou nouvelle API ?
MRv1 ou MRv2 ?
Compatibilité entre MRv1 et MRv2
Travaux pratiques : l'allocation des ressources en MRv1 et en MRv2
L'exemple du "join" de deux tables
Les outils de développement

Programmation Hadoop en Java
L'API
Les types de données
Les entrées/sorties
Le driver
Le mapper
Le reducer
Le combiner

Travaux pratiques
Porter WordCount sous Eclipse

3ème journée de formation : Programmation avancée et écosystème

Aspects avancés de la programmation Hadoop en Java
Le partitioner
Les compteurs
ToolRunner
Exercice 8 : modifier WordCount pour utiliser les compteurs et ToolRunner
MRUnit
Exemple de librairies Hadoop
La compression de données dans Hadoop
"Does" et "Don'ts"de la progammation Hadoop
Quelques"patterns" Hadoop classiques
Travaux pratiques : mise en œuvre de MRUnit

L'écosystème de Hadoop
Catégorie "programmation" : Hive, Pig, Hue, Spark
Travaux pratiques : Programmer WordCount en PigLatin puis WordCount en HiveQL
Catégorie "bases de données" : Sqoop, Impala, HBase
Travaux pratiques : programmer WordCount avec Impala
Catégorie "système" : ZooKeeper
Catégorie "exploitation" : Cloudera Manager, Oozie
Catégorie "intégration dans le SI" : Flume

Intégrer Hadoop dans l'existant informatique

4ème journée de formation : Exploitation

Différents aspects de l'exploitation de Hadoop
Planification
Travaux pratiques : programmer et tester une chaîne Hadoop simple avec Oozie
Monitoring
Sécurité
Exemples de problèmes "hadoopéables"
Exemples d'utilisation de Hadoop

Mise en œuvre d'un cluster Hadoop
Cluster dédié ou cluster dans le nuage ?
Le choix d'une distribution
Aspects matériels
Aspects logiciels
Support technique
Formation

Conclusion
Ce qu’il faut retenir
Le futur de Hadoop

Prochaines sessions

picto Du mardi 06/03 au vendredi 09/03 2018 Paris 2 400 € fleche S’inscrire à la session du lundi 06/03 au mardi 09/03
picto Du mardi 29/05 au vendredi 01/06 2018 Paris 2 400 € fleche S’inscrire à la session du lundi 29/05 au mardi 01/06
picto Du mardi 13/11 au vendredi 16/11 2018 Paris 2 400 € fleche S’inscrire à la session du lundi 13/11 au mardi 16/11
Proposer une session.

Pas de témoignage pour l'instant.

Cher(e) visiteur(euse),
Nous vous remercions pour l'intérêt porté à nos formations. La pré-inscription à une session de formation se fait via le formulaire d'inscription de la page formation.

La Convention de Formation Professionnelle Continue simplifiée vous sera envoyée par mail dans les 72H max. Votre inscription est considérée comme définitive, une fois cette convention signée par votre entreprise ou OPCA. La facture sera émise à l'issue de la formation, comme mentionnée dans nos conditions générales de vente.

A noter que les demandeurs d'emploi peuvent bénéficier d'une remise de 20% sur le prix public.

Pour toute information complémentaire ou demande de devis, n'hésitez pas à nous contacter au 01 53 34 66 10 ou à nous solliciter par mail.

A très bientôt dans l'un de nos centres de formation.
L'équipe Clever-Institut.

Les autres formations « Big data »  – Voir toutes les formations