Programa do Curso
Introdução, Objetivos e Estratégia de Migração
- Metas do curso, alinhamento do perfil dos participantes e critérios de sucesso
- Abordagens gerais de migração e considerações de risco
- Configuração de workspaces, repositórios e conjuntos de dados laboratoriais
Dia 1 — Fundamentos da Migração e Arquitetura
- Conceitos Lakehouse, visão geral do Delta Lake e arquitetura do Databricks
- Diferenças entre SMP e MPP e suas implicações para a migração
- Design Medallion (Bronze→Prata→Ouro) e visão geral do Unity Catalog
Laboratório do Dia 1 — Tradução de um Procedimento Armazenado
- Migração prática de um procedimento armazenado de exemplo para um caderno
- Mapeamento de tabelas temporárias e cursores para transformações DataFrame
- Validação e comparação com a saída original
Dia 2 — Delta Lake Avançado & Ingestão Incremental
- Transações ACID, logs de commit, versionamento e viagem no tempo
- Auto Loader, padrões MERGE INTO, upserts e evolução de esquema
- Otimização, VACUUM, Z-ORDER, particionamento e ajuste de armazenamento
Laboratório do Dia 2 — Ingestão Incremental & Otimização
- Implementação de ingestão Auto Loader e fluxos de trabalho MERGE
- Aplicação de OPTIMIZE, Z-ORDER, VACUUM; validação dos resultados
- Medição das melhorias no desempenho de leitura/escrita
Dia 3 — SQL no Databricks, Desempenho & Depuração
- Recursos analíticos do SQL: funções de janela, funções de ordem superior, manipulação de JSON/array
- Leitura da UI do Spark, DAGs, embaralhamentos, estágios, tarefas e diagnóstico de gargalos
- Padrões de otimização de consultas: junções broadcast, dicas, cache e redução de spills
Laboratório do Dia 3 — Refatoração SQL & Otimização de Desempenho
- Refatorar um processo SQL pesado para Spark SQL otimizado
- Usar rastreamentos da UI do Spark para identificar e corrigir problemas de distorção e embaralhamento
- Benchmark antes/depois e documentação das etapas de otimização
Dia 4 — PySpark Tático: Substituição de Lógica Procedural
- Modelo de execução do Spark: driver, executores, avaliação preguiçosa e estratégias de particionamento
- Transformação de loops e cursores em operações DataFrame vetorializadas
- Modularização, UDFs/UDFs do pandas, widgets e bibliotecas reutilizáveis
Laboratório do Dia 4 — Refatoração de Scripts Procedurais
- Refatorar um script ETL procedural em cadernos PySpark modulares
- Introduzir parametrização, testes estilo unidade e funções reutilizáveis
- Revisão de código e aplicação da lista de verificação de melhores práticas
Dia 5 — Orquestração, Pipeline Completo & Melhores Práticas
- Workflows do Databricks: design de trabalho, dependências de tarefas, gatilhos e tratamento de erros
- Projetando pipelines Medallion incrementais com regras de qualidade e validação de esquema
- Integração com Git (GitHub/Azure DevOps), CI e estratégias de testes para lógica PySpark
Laboratório do Dia 5 — Construir um Pipeline Completo End-to-End
- Montar pipeline Bronze→Prata→Ouro orquestrado com Workflows
- Implementar logging, auditoria, tentativas e validações automáticas
- Executar o pipeline completo, validar saídas e preparar notas de implantação
Operacionalização, Governança e Prontidão para Produção
- Melhores práticas de governança do Unity Catalog, linha de origem e controles de acesso
- Custo, dimensionamento de clusters, escalonamento automático e padrões de concorrência de trabalhos
- Listas de verificação de implantação, estratégias de rollback e criação de guia operacional
Revisão Final, Transferência de Conhecimento e Próximos Passos
- Apresentações dos participantes sobre o trabalho de migração e lições aprendidas
- Análise de lacunas, atividades recomendadas para acompanhamento e entrega de materiais de treinamento
- Referências, caminhos de aprendizado adicional e opções de suporte
Requisitos
- Compreensão dos conceitos de engenharia de dados
- Experiência com SQL e procedimentos armazenados (Synapse / SQL Server)
- Familiaridade com conceitos de orquestração ETL (ADF ou similar)
Público-Alvo
- Gerentes de tecnologia com experiência em engenharia de dados
- Engenheiros de dados migrando lógica OLAP procedural para padrões Lakehouse
- Engenheiros de plataforma responsáveis pela adoção do Databricks