Programa do Curso

Módulo 1. Introdução a Hadoop

  • O Hadoop Sistema de Arquivos Distribuídos (HDFS)
  • O caminho de leitura e o caminho de gravação
  • Gerenciando metadados do sistema de arquivos
  • O Namenode e o Datanode
  • A alta disponibilidade do Namenode
  • Federação de Namenodes
  • As ferramentas de linha de comando
  • Compreendendo o suporte REST

Módulo 2. Introdução ao MapReduce

  • Analisando os dados com Hadoop
  • Mapear e reduzir padrão
  • Java MapReduzir
  • Escalando
  • Fluxo de dados
  • Desenvolvendo Funções Combinadoras
  • Executando um trabalho MapReduce distribuído

Módulo 3. Planejando um Hadoop Cluster

  • Escolhendo uma distribuição e versão de Hadoop
  • Versões e recursos
  • Seleção de hardware
  • Seleção de hardware mestre e trabalhador
  • Dimensionamento de cluster
  • Seleção e preparação do sistema operacional
  • Layout de implantação
  • Configurando usuários, grupos e privilégios
  • Configuração de disco
  • Design de rede

Módulo 4. Instalação e Configuração

  • Instalando Hadoop
  • Configuração: uma visão geral
  • Os Hadoop XML arquivos de configuração
  • Variáveis de ambiente e scripts de shell
  • Configuração de registro em log
  • Gerenciando HDFS
  • Otimização e ajuste
  • Formatando o Namenode
  • Criando um diretório /tmp
  • Pensando em alta disponibilidade de Namenode
  • As opções de esgrima
  • Configuração automática de failover
  • Formate e Bootstrap os Namenodes
  • Federação de Namenodes

Módulo 5. Compreendendo Hadoop E/S

  • Integridade de dados em HDFS
  • Compreendendo os codecs
  • Compressão e divisões de entrada
  • Usando compactação no MapReduce
  • O mecanismo de serialização
  • Estruturas de dados baseadas em arquivos
  • O formato SequenceFile
  • Outros formatos de arquivo e formatos orientados a colunas

Módulo 6. Desenvolvendo uma aplicação MapReduce

  • A API de configuração
  • Configurando o Ambiente de Desenvolvimento
  • Gerenciando configuração
  • GenericOptionsParser, Tool e ToolRunner
  • Escrevendo um teste unitário com MRUnit
  • O mapeador e o redutor
  • Executando localmente em dados de teste
  • Testando o driver
  • Executando em um cluster
  • Empacotando e lançando um trabalho
  • A IU da Web MapReduce
  • Ajustando um trabalho

Módulo 7. Identidade, Autenticação e Autorização

  • Gerenciando Identidade
  • Cérbero e Hadoop
  • Compreendendo a autorização

Módulo 8. Recurso Management

  • O que é recurso Management?
  • Cotas HDFS
  • Agendadores MapReduce
  • Anatomia de uma execução de aplicativo YARN
  • Solicitações de recursos
  • Vida útil do aplicativo
  • YARN comparado ao MapReduce 1
  • Agendamento no YARN
  • Opções do agendador
  • Configuração do Agendador de Capacidade
  • Configuração justa do agendador
  • Agendamento de atraso
  • Justiça de recursos dominante

Módulo 9. Tipos e formatos de MapReduce

  • Tipos de MapReduce
  • O trabalho MapReduce padrão
  • Definindo os formatos de entrada
  • Gerenciando divisões e registros de entrada
  • Entrada de texto e entrada binária
  • Gerenciando múltiplas entradas
  • Database Entrada (e Saída)
  • Formatos de saída
  • Saída de texto e saída binária
  • Gerenciando múltiplas saídas
  • A Database Saída

Módulo 10. Usando recursos do MapReduce

  • Usando contadores
  • Lendo contadores integrados
  • Contadores definidos pelo usuário Java
  • Compreendendo a classificação
  • Usando o cache distribuído

Módulo 11. Manutenção e solução de problemas de cluster

  • Gerenciando Hadoop Processos
  • Iniciando e interrompendo processos com scripts de inicialização
  • Iniciando e interrompendo processos manualmente
  • Tarefas de manutenção do HDFS
  • Adicionando um nó de dados
  • Desativando um Datanode
  • Verificando a integridade do sistema de arquivos com fsck
  • Balanceamento de dados de bloco HDFS
  • Lidando com um disco com falha
  • Tarefas de manutenção do MapReduce
  • Matando um trabalho MapReduce
  • Eliminando uma tarefa MapReduce
  • Gerenciando o esgotamento de recursos

Módulo 12. Monitoramento

  • As Hadoop métricas disponíveis
  • O papel do SNMP
  • Monitoramento de Saúde
  • Verificações em nível de host
  • Verificações HDFS
  • Verificações de MapReduce

Módulo 13. Backup e Recuperação

  • Backup de dados
  • Cópia Distribuída (distcp)
  • Ingestão de dados paralelos
  • Metadados de Namenode
 21 horas

Declaração de Clientes (1)

Cursos Relacionados

Categorias Relacionadas