Programa do Curso

Seção 1: Data Management no HDFS

  • Diversos Formatos de Dados (JSON / Avro / Parquet)
  • Espaçamento Schemes
  • Máscaras de Dados
  • Labs : Análise de diferentes formatos de dados; habilitando compressão

Seção 2: Pig Avançado

  • Funções Definidas pelo Usuário
  • Introdução às Bibliotecas do Pig (ElephantBird / Data-Fu)
  • Carga de Dados Estruturados Complexos usando o Pig
  • Ajuste de Performances do Pig
  • Labs : script Pig avançado, analisando tipos de dados complexos

Seção 3: Avançado Hive

  • Funções Definidas pelo Usuário
  • Tabelas Comprimidas
  • Ajuste de Performances do Hive
  • Labs : criando tabelas comprimidas, avaliando formatos e configuração das tabelas

Seção 4: HBase Avançado

  • Modelagem de Esquema Avançada
  • Compressão
  • Ingesta em Massa de Dados
  • Comparação de Tabelas Largas / Altas
  • HBase e Pig
  • HBase e Hive
  • Ajuste de Performances do HBase
  • Labs : ajustando o HBase; acesso aos dados do HBase a partir do Pig & Hive; Usando Phoenix para modelagem de dados

Requisitos

  • confortável com a linguagem de programação Java (a maioria dos exercícios de programação são em Java)
  • familiarizado com o ambiente Linux (ser capaz de navegar na linha de comando do Linux, editar arquivos usando vi / nano)
  • conhecimento prático de Hadoop.

Ambiente de laboratório

Nenhuma instalação necessária: Não é necessário instalar o software do Hadoop nos computadores dos alunos! Um cluster funcionando do Hadoop será fornecido para os alunos.

Os alunos precisarão de:

 21 Horas

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas