Programa do Curso
Secção 1: Introdução ao Hadoop
- História e conceitos do Hadoop
- Eco sistema
- Distribuições
- Arquitetura de alto nível
- Mitos sobre o Hadoop
- Desafios do Hadoop
- Hardware / Software
- lab : primeira visão do Hadoop
Secção 2: HDFS
- Design e arquitetura
- conceitos (escala horizontal, replicação, localidade de dados, consciência de rack)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicações / batimentos cardíacos
- Integridade dos dados
- Caminho de leitura/escrita
- Namenode Alta Disponibilidade (HA), Federação
- labs : Interagindo com HDFS
Secção 3 : Map Reduce
- conceitos e arquitetura
- daemons (MRV1) : jobtracker / tasktracker
- fases : driver, mapper, shuffle/sort, reducer
- Map Reduce Versão 1 e Versão 2 (YARN)
- Aspectos internos do Map Reduce
- Introdução ao programa Java Map Reduce
- laboratórios: execução de um programa MapReduce de exemplo
Secção 4 : Pig
- pig vs java map reduce
- fluxo de trabalho pig
- linguagem latina do pig
- ETL com Pig
- Transformações e junções
- Funções definidas pelo utilizador (UDF)
- laboratórios: escrever scripts Pig para analisar dados
Secção 5: Hive
- arquitetura e design
- tipos de dados
- Suporte SQL em Hive
- Criando Hive tabelas e consultando
- partições
- junções
- processamento de texto
- laboratórios : vários laboratórios sobre processamento de dados com Hive
Secção 6: HBase
- conceitos e arquitetura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Séries temporais em HBase
- design de esquema
- labs : Interagindo com HBase usando shell; programação na HBase Java API ; Exercício de design de esquema
Requisitos
- à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
- confortável no ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)
Ambiente de laboratório
Instalação Zero : Não é necessário instalar o software Hadoop nos computadores dos alunos! Um cluster funcional Hadoop será fornecido para os alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
- um navegador para acessar o cluster, recomenda-se Firefox
Declaração de Clientes (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay