Programa do Curso

Secção 1: Introdução ao Hadoop

  • História e conceitos do Hadoop
  • Eco sistema
  • Distribuições
  • Arquitetura de alto nível
  • Mitos sobre o Hadoop
  • Desafios do Hadoop
  • Hardware / Software
  • lab : primeira visão do Hadoop

Secção 2: HDFS

  • Design e arquitetura
  • conceitos (escala horizontal, replicação, localidade de dados, consciência de rack)
  • Daemons : Namenode, Secondary namenode, Data node
  • Comunicações / batimentos cardíacos
  • Integridade dos dados
  • Caminho de leitura/escrita
  • Namenode Alta Disponibilidade (HA), Federação
  • labs : Interagindo com HDFS

Secção 3 : Map Reduce

  • conceitos e arquitetura
  • daemons (MRV1) : jobtracker / tasktracker
  • fases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versão 1 e Versão 2 (YARN)
  • Aspectos internos do Map Reduce
  • Introdução ao programa Java Map Reduce
  • laboratórios: execução de um programa MapReduce de exemplo

Secção 4 : Pig

  • pig vs java map reduce
  • fluxo de trabalho pig
  • linguagem latina do pig
  • ETL com Pig
  • Transformações e junções
  • Funções definidas pelo utilizador (UDF)
  • laboratórios: escrever scripts Pig para analisar dados

Secção 5: Hive

  • arquitetura e design
  • tipos de dados
  • Suporte SQL em Hive
  • Criando Hive tabelas e consultando
  • partições
  • junções
  • processamento de texto
  • laboratórios : vários laboratórios sobre processamento de dados com Hive

Secção 6: HBase

  • conceitos e arquitetura
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Séries temporais em HBase
  • design de esquema
  • labs : Interagindo com HBase usando shell;   programação na HBase Java API ; Exercício de design de esquema

Requisitos

  • à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
  • confortável no ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)

Ambiente de laboratório

Instalação Zero : Não é necessário instalar o software Hadoop nos computadores dos alunos! Um cluster funcional Hadoop será fornecido para os alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
  • um navegador para acessar o cluster, recomenda-se Firefox
 28 Horas

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas