Programa do Curso

Introdução

  • Introdução à computação em nuvem e soluções de Big Data
  • Visão geral das características e da arquitetura do Apache Hadoop

Configuração Hadoop

  • Planear um cluster Hadoop (no local, na nuvem, etc.)
  • Seleção do SO e da distribuição Hadoop
  • Provisionamento de recursos (hardware, rede, etc.)
  • Descarregar e instalar o software
  • Dimensionamento do cluster para flexibilidade

Trabalhar com o HDFS

  • Compreender o Hadoop Sistema de Ficheiros Distribuídos (HDFS)
  • Visão geral da referência de comandos do HDFS
  • Acedendo ao HDFS
  • Realização de operações básicas de ficheiros no HDFS
  • Usando o S3 como um complemento ao HDFS

Visão geral do MapReduce

  • Compreender o fluxo de dados na estrutura MapReduce
  • Mapear, baralhar, ordenar e reduzir
  • Demonstração: Cálculo dos salários mais altos

Trabalhar com YARN

  • Compreender a gestão de recursos em Hadoop
  • Trabalhar com ResourceManager, NodeManager, Application Master
  • Agendamento de trabalhos no YARN
  • Agendamento para um grande número de nós e clusters
  • Demonstração: Agendamento de trabalhos

Integração de Hadoop com o Spark

  • Configurar o armazenamento para o Spark (HDFS, Amazon, S3, NoSQL, etc.)
  • Entendendo os conjuntos de dados distribuídos resilientes (RDDs)
  • Criando um RDD
  • Implementando transformações de RDD
  • Demonstração: Implementando um programa de pesquisa de texto para títulos de filmes

Gerir um Hadoop Cluster

  • Monitorização Hadoop
  • Proteção de um cluster Hadoop
  • Adicionar e remover nós
  • Executar um benchmark de desempenho
  • Ajustar um cluster Hadoop para otimizar o desempenho
  • Planeamento de cópia de segurança, recuperação e continuidade do negócio
  • Garantir a alta disponibilidade (HA)

Atualização e migração de um Hadoop Cluster

  • Avaliação dos requisitos de carga de trabalho
  • Atualização Hadoop
  • Passar do local para a nuvem e vice-versa
  • Recuperação de falhas

Resolução de problemas

Resumo e conclusão

Requisitos

  • Experiência em administração de sistemas
  • Experiência com Linux linha de comando
  • Uma compreensão dos conceitos de big data

Público

  • Administradores de sistemas
  • DBAs
 35 horas

Declaração de Clientes (7)

Cursos Relacionados

Categorias Relacionadas