Programa do Curso
1. Introdução à Aprendizagem por Reforço Profunda
- O que é Aprendizagem por Reforço?
- Diferença entre Aprendizagem Supervisionada, Não Supervisionada e por Reforço
- Aplicações de DRL em 2025 (robótica, saúde, finanças, logística)
- Compreendendo o ciclo de interação agente-ambiente
2. Fundamentos da Aprendizagem por Reforço
- Processos de Decisão de Markov (MDP)
- Estado, Ação, Recompensa, Política e Funções de Valor
- Equilíbrio entre Exploração e Explotação
- Métodos Monte Carlo e Aprendizagem por Diferença Temporal (TD)
3. Implementando Algoritmos Básicos de RL
- Métodos tabulares: Programação Dinâmica, Avaliação de Política e Iteração
- Q-Learning e SARSA
- Exploração epsilon-greedy e estratégias decrescentes
- Implementando ambientes de RL com OpenAI Gymnasium
4. Transição para Aprendizagem por Reforço Profunda
- Limitações dos métodos tabulares
- Uso de redes neurais para aproximação de funções
- Arquitetura e fluxo do Deep Q-Network (DQN)
- Reprodução de experiência e redes alvo
5. Algoritmos Avançados de DRL
- Double DQN, Dueling DQN e Reprodução de Experiência Prioritária
- Métodos de Gradientes de Política: Algoritmo REINFORCE
- Arquiteturas Actor-Critic (A2C, A3C)
- Otimização de Política Proximal (PPO)
- Soft Actor-Critic (SAC)
6. Trabalhando com Espaços de Ação Contínuos
- Desafios no controle contínuo
- Uso do DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Ferramentas e Frameworks Práticos
- Usando Stable-Baselines3 e Ray RLlib
- Registro e monitoramento com TensorBoard
- Ajuste de hiperparâmetros para modelos de DRL
8. Engenharia de Recompensa e Design de Ambientes
- Modelagem de recompensas e equilíbrio de penalidades
- Conceitos de transferência de simulação para o mundo real
- Criação de ambientes personalizados no Gymnasium
9. Ambientes Parcialmente Observáveis e Generalização
- Lidando com informações de estado incompletas (POMDPs)
- Abordagens baseadas em memória usando LSTMs e RNNs
- Melhorando a robustez e generalização do agente
10. Teoria dos Jogos e Aprendizagem por Reforço Multi-Agente
- Introdução a ambientes multi-agente
- Cooperação vs. competição
- Aplicações em treinamento adversário e otimização de estratégia
11. Estudos de Caso e Aplicações do Mundo Real
- Simulações de direção autônoma
- Preços dinâmicos e estratégias de negociação financeira
- Robótica e automação industrial
12. Solução de Problemas e Otimização
- Diagnóstico de treinamento instável
- Gerenciando a escassez de recompensas e o overfitting
- Escalando modelos de DRL em GPUs e sistemas distribuídos
13. Resumo e Próximos Passos
- Revisão da arquitetura de DRL e algoritmos principais
- Tendências da indústria e direções de pesquisa (por exemplo, RLHF, modelos híbridos)
- Recursos adicionais e materiais de leitura
Requisitos
- Proficiência em programação Python
- Compreensão de Cálculo e Álgebra Linear
- Conhecimento básico de Probabilidade e Estatística
- Experiência na construção de modelos de aprendizagem de máquina usando Python e NumPy ou TensorFlow/PyTorch
Público-Alvo
- Desenvolvedores interessados em IA e sistemas inteligentes
- Cientistas de Dados explorando frameworks de aprendizagem por reforço
- Engenheiros de Aprendizagem de Máquina trabalhando com sistemas autônomos
Declaração de Clientes (5)
O Hunter é fabuloso, muito cativante, extremamente conhecedor e pessoal. Muito bem feito.
Rick Johnson - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Máquina Traduzida
Very flexible.
Frank Ueltzhoffer
Curso - Artificial Neural Networks, Machine Learning and Deep Thinking
Máquina Traduzida
I liked the new insights in deep machine learning.
Josip Arneric
Curso - Neural Network in R
Máquina Traduzida
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Curso - Introduction to the use of neural networks
Máquina Traduzida
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Máquina Traduzida