Programa do Curso

Introdução

Compreendendo a arquitetura e os principais conceitos de Hadoop

Compreendendo o Hadoop Sistema de Arquivos Distribuídos (HDFS)

    Visão geral do HDFS e seu projeto arquitetônico Interagindo com o HDFS Executando operações básicas de arquivo no HDFS Visão geral da referência de comandos do HDFS Visão geral do Snakebite Instalando o Snakebite usando a biblioteca do cliente Snakebite Usando o cliente CLI

Aprendendo o modelo de programação MapReduce com Python

    Visão geral do modelo MapReduce Programming Compreendendo o fluxo de dados na estrutura MapReduce Map Shuffle e Sort Reduce
Usando o Hadoop Streaming Utility Noções básicas sobre como funciona o Hadoop Streaming Utility
  • Demonstração: Implementando o aplicativo WordCount em Python
  • Usando a Visão Geral da Biblioteca mrjob do mrjob
  • Instalando mrjob
  • Demonstração: Implementando o Word Algoritmo de Contagem Usando mrjob
  • Compreendendo como funciona um trabalho MapReduce escrito com a biblioteca mrjob
  • Executando uma aplicação MapReduce com mrjob
  • Prática: calculando os melhores salários usando mrjob
  • Aprendendo Porco com Python
  • Visão geral da demonstração do Pig: implementando o Word algoritmo de contagem no Pig Configurando e executando scripts e instruções do Pig usando os modos de execução do Pig usando o modo interativo do Pig usando o modo Pic Batch
  • Compreendendo os conceitos básicos da língua latina do porco usando declarações

      Carregando dados
    Transformando Dados
  • Armazenando Dados
  • Estendendo a funcionalidade do Pig com Python UDFs registrando um Python arquivo UDF
  • Demonstração: uma UDF simples Python
  • Demonstração: manipulação de strings usando Python UDF
  • Prática: calculando os 10 filmes mais recentes usando Python UDF
  • Usando Spark e PySpark
  • Visão geral da demonstração do Spark: implementando o Wordalgoritmo de contagem no PySpark Visão geral do PySpark usando um shell interativo Implementando aplicativos independentes
  • Trabalhando com conjuntos de dados distribuídos resilientes (RDDs) Criando RDDs a partir de uma coleção Python
  • Criando RDDs a partir de arquivos
  • Implementando Transformações RDD

      Implementando Ações RDD
    Prática: Implementando um programa de texto Search para títulos de filmes com PySpark
  • Gerenciando fluxo de trabalho com Python
  • Visão geral do Apache Oozie e do Luigi Instalando o Luigi Noções básicas sobre conceitos de fluxo de trabalho do Luigi Tarefas Parâmetros de destino
  • Demonstração: examinando um fluxo de trabalho que implementa o algoritmo WordCount
  • Trabalhando com Hadoop fluxos de trabalho que controlam tarefas MapReduce e Pig usando arquivos de configuração do Luigi
  • Trabalhando com MapReduce no Luigi
  • Trabalhando com Pig em Luigi
  • Resumo e conclusão

    Requisitos

    • Experiência com programação Python
    • Familiaridade básica com Hadoop
     28 horas

    Declaração de Clientes (3)

    Cursos Relacionados

    Categorias Relacionadas