Programa do Curso
Seção 1: Introdução ao Hadoop
- História do Hadoop, conceitos
- ecossistema
- distribuições
- arquitetura de alto nível
- mitos sobre o Hadoop
- desafios do Hadoop
- hardware / software
- laboratório : primeira visão do Hadoop
Seção 2: HDFS
- design e arquitetura
- conceitos (escalabilidade horizontal, replicação, localidade de dados, consciência de rack)
- daemons : Namenode, Secondary namenode, Data node
- comunicações / batidas de coração
- integridade dos dados
- caminho de leitura / gravação
- Namenode High Availability (HA), Federação
- laboratórios : interagindo com o HDFS
Seção 3: Map Reduce
- conceitos e arquitetura
- daemons (MRV1) : jobtracker / tasktracker
- fases : driver, mapper, shuffle/sort, reducer
- Map Reduce Versão 1 e Versão 2 (YARN)
- internas do Map Reduce
- introdução ao programa Java Map Reduce
- laboratórios : executando um programa de exemplo MapReduce
Seção 4: Pig
- Pig vs Java Map Reduce
- fluxo do trabalho do Pig
- linguagem Pig Latin
- ETL com Pig
- Transformações & Junções
- funções definidas pelo usuário (UDF)
- laboratórios : escrevendo scripts Pig para analisar dados
Seção 5: Hive
- arquitetura e design
- tipos de dados
- syntaxe SQL no Hive
- Criando tabelas do Hive e consultando
- partições
- junções
- processamento de texto
- laboratórios : vários laboratórios para processar dados com o Hive
Seção 6: HBase
- conceitos e arquitetura
- HBase vs RDBMS vs Cassandra
- API Java do HBase
- Dados de série temporal no HBase
- design de esquema
- laboratórios : interagindo com o HBase usando shell; programação na API Java do HBase; exercício de design de esquema
Requisitos
- confortável com a linguagem de programação Java (a maioria dos exercícios de programação é em Java)
- confortável no ambiente Linux (capaz de navegar na linha de comando do Linux, editar arquivos usando vi / nano)
Ambiente Laboratorial
Instalação Zero : Não há necessidade de instalar o software Hadoop nas máquinas dos alunos! Um cluster Hadoop funcional será fornecido para os estudantes.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
- um navegador para acessar o cluster, Firefox recomendado
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James me explicou todos os passos onde eu ficava preso com mais detalhes. Eu era completamente novo no NiFi. Ele explicou a finalidade real do NiFi, incluindo conceitos básicos como software open source. Ele abordou todos os conceitos do NiFi, desde o Nível Iniciante até o Nível Desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Que eu tivesse isso desde o início.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
aspectos práticos de fazer, além disso a teoria foi bem apresentada por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida
Gostei muito da VM O Professor era muito conhecido sobre o tópico, bem como outros tópicos, ele foi muito simpático e amigável Gostei das instalações em Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Máquina Traduzida