Programa do Curso

Introdução:

  • Apache Spark em Hadoop Ecossistema
  • Breve introdução para python, scala

Noções básicas (teoria):

  • Arquitetura
  • RDD
  • Transformação e Ações
  • Estágio, Tarefa, Dependências

Usando o ambiente Databricks, entenda o básico (workshop prático):

  • Exercícios usando API RDD
  • Funções básicas de ação e transformação
  • ParRDD
  • Juntar
  • Estratégias de cache
  • Exercícios usando API DataFrame
  • FaíscaSQL
  • DataFrame: selecionar, filtrar, agrupar, classificar
  • UDF (função definida pelo usuário)
  • Olhando para a API DataSet
  • Transmissão

Usando o ambiente AWS, entenda a implantação (workshop prático):

  • Noções básicas do AWS Glue
  • Entenda as diferenças entre AWS EMR e AWS Glue
  • Trabalhos de exemplo em ambos os ambientes
  • Entenda prós e contras

Extra:

  • Introdução à Apache Airflow orquestração

Requisitos

Conhecimentos de programação (de preferência python, scala)

SQL noções básicas

  21 horas
 

Declaração de Clientes (3)

Cursos Relacionados

Categorias Relacionadas