Développement avec Apache Hadoop

Les principes du Big Data ont révolutionné le monde de l’informatique pour le traitement de grandes volumétries de données hétérogène, notamment avec Apache Hadoop. Cette formation vous permet d’acquérir les connaissances nécessaires à une bonne utilisation d’Apache Hadoop.

Durée

4 jours.

Publics cibles

Développeurs, Architectes, Chefs de projets

Pré-requis

Java

Objectifs

Construire un programme à base de Map Reduce
Intégrer Hadoop HBase dans un workflow d'entreprise
Travailler avec Apache Hive et Pig depuis HDFS
Utiliser un graphe de tâches avec Hadoop

Informations

Cette formation est accessible en présentiel et à distance (classe virtuelle)

Programme détaillé

Introduction

Problèmes avec les systèmes traditionnels à grande échelle.
Définition du périmètre du Big Data.
Le rôle du projet Hadoop.
Les concepts de base des projets Big Data.
Présentation du Cloud Computing.
Différence entre Cloud Computing privé et public.
Les architectures Big Data à base du projet Hadoop.
Problèmes liés à Hadoop.
Composants Hadoop.
HDFS (Hadoop Distributed File System).

Collecte de données et application de Map Reduce

Mappers.
Reducers.
Jobs Hadoop et tâches.
Analyse des flux de données dans l'entreprise.
Données structurées et non-structurées.
Les principes de l'analyse sémantique des données d'entreprise.
Graphe des tâches à base de MapReduce.
La granularité de cohérence des données.
Transfert de données depuis un système de persistance dans Hadoop.
Transfert de données d'un Cloud dans Hadoop.
Diminution de la quantité de données intermédiaires avec les multiplexeurs.

Le stockage des données avec HBase

Plusieurs types de base de données XML.
Patterns d'usages et application au Cloud.
Application de Hadoop database au sein d'un workflow.
Vue d’ensemble de Hive et Pig.
Utilisation des projets Hive/Pig.
Utilisation du projet HCatalog.
L'API Java HBase.

Le stockage des données sur HDFS

Patterns d'usages et application au Cloud.
Architecture et installation d'un système HDFS, journal, NameNode, DataNode.
Accès à la programmation HDFS.
Utiliser le cache distribué.
Opérations, commandes et gestion des commandes.
L'API HDFS Java.
Analyse de données avec Apache Pig.
Le langage Pig Latin. Utiliser Apache Pig avec Java.
Requêtage avec Apache Hive.
Réplication de données. Partage de données sur une architecture HDFS.