Programa do Curso

Seção 1: Gestão de Dados no HDFS

  • Vários Formatos de Dados (JSON / Avro / Parquet)
  • Espaços de Compressão
  • Mascaramento de Dados
  • Laboratórios : analisando diferentes formatos de dados; habilitando compressão

Seção 2: Pig Avançado

  • Funções Definidas pelo Usuário
  • Introdução às Bibliotecas do Pig (ElephantBird / Data-Fu)
  • Carregamento de Dados Estruturados Complexos usando Pig
  • Otimização do Pig
  • Laboratórios : script avançado com Pig, análise de tipos de dados complexos

Seção 3: Hive Avançado

  • Funções Definidas pelo Usuário
  • Tabelas Comprimidas
  • Otimização de Desempenho do Hive
  • Laboratórios : criando tabelas comprimidas, avaliando formatos e configuração de tabelas

Seção 4: HBase Avançado

  • Modelagem Avançada de Esquema
  • Compressão
  • Ingestão em Lote de Dados
  • Comparação entre Tabelas Largas e Altas
  • HBase e Pig
  • HBase e Hive
  • Otimização de Desempenho do HBase
  • Laboratórios : otimizando o HBase; acessando dados do HBase a partir do Pig & Hive; Usando Phoenix para modelagem de dados

Requisitos

  • confortável com a linguagem de programação Java (a maioria dos exercícios de programação está em Java)
  • familiarizado com o ambiente Linux (capacidade de navegar no terminal do Linux, editar arquivos usando vi / nano)
  • conhecimento prático de Hadoop.

Ambiente de Laboratório

Sem Instalação: Não é necessário instalar software Hadoop nas máquinas dos alunos! Um cluster Hadoop funcional será fornecido aos estudantes.

Os alunos precisarão do seguinte

 21 Horas

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas