Programa do Curso

Introdução, Objetivos e Estratégia de Migração

  • Metas do curso, alinhamento do perfil dos participantes e critérios de sucesso
  • Abordagens gerais de migração e considerações de risco
  • Configuração de workspaces, repositórios e conjuntos de dados laboratoriais

Dia 1 — Fundamentos da Migração e Arquitetura

  • Conceitos Lakehouse, visão geral do Delta Lake e arquitetura do Databricks
  • Diferenças entre SMP e MPP e suas implicações para a migração
  • Design Medallion (Bronze→Prata→Ouro) e visão geral do Unity Catalog

Laboratório do Dia 1 — Tradução de um Procedimento Armazenado

  • Migração prática de um procedimento armazenado de exemplo para um caderno
  • Mapeamento de tabelas temporárias e cursores para transformações DataFrame
  • Validação e comparação com a saída original

Dia 2 — Delta Lake Avançado & Ingestão Incremental

  • Transações ACID, logs de commit, versionamento e viagem no tempo
  • Auto Loader, padrões MERGE INTO, upserts e evolução de esquema
  • Otimização, VACUUM, Z-ORDER, particionamento e ajuste de armazenamento

Laboratório do Dia 2 — Ingestão Incremental & Otimização

  • Implementação de ingestão Auto Loader e fluxos de trabalho MERGE
  • Aplicação de OPTIMIZE, Z-ORDER, VACUUM; validação dos resultados
  • Medição das melhorias no desempenho de leitura/escrita

Dia 3 — SQL no Databricks, Desempenho & Depuração

  • Recursos analíticos do SQL: funções de janela, funções de ordem superior, manipulação de JSON/array
  • Leitura da UI do Spark, DAGs, embaralhamentos, estágios, tarefas e diagnóstico de gargalos
  • Padrões de otimização de consultas: junções broadcast, dicas, cache e redução de spills

Laboratório do Dia 3 — Refatoração SQL & Otimização de Desempenho

  • Refatorar um processo SQL pesado para Spark SQL otimizado
  • Usar rastreamentos da UI do Spark para identificar e corrigir problemas de distorção e embaralhamento
  • Benchmark antes/depois e documentação das etapas de otimização

Dia 4 — PySpark Tático: Substituição de Lógica Procedural

  • Modelo de execução do Spark: driver, executores, avaliação preguiçosa e estratégias de particionamento
  • Transformação de loops e cursores em operações DataFrame vetorializadas
  • Modularização, UDFs/UDFs do pandas, widgets e bibliotecas reutilizáveis

Laboratório do Dia 4 — Refatoração de Scripts Procedurais

  • Refatorar um script ETL procedural em cadernos PySpark modulares
  • Introduzir parametrização, testes estilo unidade e funções reutilizáveis
  • Revisão de código e aplicação da lista de verificação de melhores práticas

Dia 5 — Orquestração, Pipeline Completo & Melhores Práticas

  • Workflows do Databricks: design de trabalho, dependências de tarefas, gatilhos e tratamento de erros
  • Projetando pipelines Medallion incrementais com regras de qualidade e validação de esquema
  • Integração com Git (GitHub/Azure DevOps), CI e estratégias de testes para lógica PySpark

Laboratório do Dia 5 — Construir um Pipeline Completo End-to-End

  • Montar pipeline Bronze→Prata→Ouro orquestrado com Workflows
  • Implementar logging, auditoria, tentativas e validações automáticas
  • Executar o pipeline completo, validar saídas e preparar notas de implantação

Operacionalização, Governança e Prontidão para Produção

  • Melhores práticas de governança do Unity Catalog, linha de origem e controles de acesso
  • Custo, dimensionamento de clusters, escalonamento automático e padrões de concorrência de trabalhos
  • Listas de verificação de implantação, estratégias de rollback e criação de guia operacional

Revisão Final, Transferência de Conhecimento e Próximos Passos

  • Apresentações dos participantes sobre o trabalho de migração e lições aprendidas
  • Análise de lacunas, atividades recomendadas para acompanhamento e entrega de materiais de treinamento
  • Referências, caminhos de aprendizado adicional e opções de suporte

Requisitos

  • Compreensão dos conceitos de engenharia de dados
  • Experiência com SQL e procedimentos armazenados (Synapse / SQL Server)
  • Familiaridade com conceitos de orquestração ETL (ADF ou similar)

Público-Alvo

  • Gerentes de tecnologia com experiência em engenharia de dados
  • Engenheiros de dados migrando lógica OLAP procedural para padrões Lakehouse
  • Engenheiros de plataforma responsáveis pela adoção do Databricks
 35 Horas

Próximas Formações Provisórias

Categorias Relacionadas