Programa do Curso

Semana 1 — Introdução ao Data Engineering

  • Fundamentos de data engineering e pilhas de dados modernas
  • Padrões e fontes de ingestão de dados
  • Conceitos de batch vs streaming e casos de uso
  • Laboratório prático: ingesting sample data into cloud storage (ingestão de dados de amostra em armazenamento em nuvem)

Semana 2 — Databricks Lakehouse Foundation Badge

  • Fundamentos da plataforma Databricks e navegação no workspace
  • Conceitos do Delta Lake: ACID, viagem no tempo e evolução de esquema
  • Segurança do workspace, controles de acesso e fundamentos do Unity Catalog
  • Laboratório prático: criação e gerenciamento de tabelas Delta

Semana 3 — Advanced SQL no Databricks

  • Construções avançadas de SQL e funções de janela em larga escala
  • Otimização de consultas, planos de execução e padrões baseados em custo
  • Visões materializadas, cache e ajuste de desempenho
  • Laboratório prático: otimizando consultas analíticas em conjuntos de dados grandes

Semana 4 — Databricks Certified Developer for Apache Spark (Prep)

  • Arquitetura do Spark, RDDs, DataFrames e Datasets aprofundados
  • Transformações e ações principais do Spark; considerações de desempenho
  • Noções básicas de streaming do Spark e padrões de streaming estruturado
  • Exercícios de prática de exame e problemas de teste práticos

Semana 5 — Introdução ao Data Modeling

  • Conceitos: modelagem dimensional, design de estrela/esquema e normalização
  • Modelagem em Lakehouse vs abordagens tradicionais de data warehouse
  • Padrões de design para conjuntos de dados prontos para análise
  • Laboratório prático: construção de tabelas e visualizações prontas para consumo

Semana 6 — Introdução a Import Tools & Data Ingestion Automation

  • Conectores e ferramentas de ingestão para Databricks (AWS Glue, Data Factory, Kafka)
  • Padrões de ingestão em fluxo e designs de micro-batch
  • Validação de dados, verificações de qualidade e aplicação de esquema
  • Laboratório prático: construção de pipelines de ingestão resilientes

Semana 7 — Introdução ao Git Flow e CI/CD para Data Engineering

  • Estratégias de ramificação Git Flow e organização de repositórios
  • Pipelines CI/CD para notebooks, jobs e infraestrutura como código
  • Testes, linting e automação de implantação para código de dados
  • Laboratório prático: implementar fluxo baseado em Git e implantação automatizada de jobs

Semana 8 — Databricks Certified Data Engineer Associate (Prep) & Padrões de Data Engineering

  • Revisão de tópicos de certificação e exercícios práticos
  • Padrões arquiteturais: bronze/silver/gold, CDC, dimensões que mudam lentamente
  • Padrões operacionais: monitoramento, alertas e lineage
  • Laboratório prático: pipeline de ponta a ponta aplicando padrões de engenharia

Semana 9 — Introdução ao Airflow e Astronomer; Scripting

  • Conceitos do Airflow: DAGs, tarefas, operadores e agendamento
  • Visão geral da plataforma Astronomer e melhores práticas de orquestração
  • Scripting para automação: padrões de scripting Python para tarefas de dados
  • Laboratório prático: orquestrar jobs do Databricks com DAGs do Airflow

Semana 10 — Data Visualization, Tableau e Projeto Final Personalizado

  • Conectando o Tableau ao Databricks e melhores práticas para camadas de BI
  • Princípios de design de dashboards e visualizações conscientes do desempenho
  • Culminante: projeto final personalizado, escopo, implementação e apresentação
  • Apresentações finais, revisão por pares e feedback do instrutor

Resumo e Próximos Passos

Requisitos

  • Compreensão básica de SQL e conceitos de dados
  • Experiência em programação com Python ou Scala
  • Familiaridade com serviços em nuvem e ambientes virtuais

Público-Alvo

  • Data engineers aspirantes e praticantes
  • Desenvolvedores ETL/BI e engenheiros de análise
  • Equipes de plataforma de dados e DevOps que apoiam pipelines
 350 Horas

Próximas Formações Provisórias

Categorias Relacionadas