Programa do Curso

Introdução ao Aprendizado por Reforço e à IA Agente

  • Tomada de decisão sob incerteza e planejamento sequencial
  • Componentes-chave do RL: agentes, ambientes, estados e recompensas
  • Papel do RL em sistemas de IA adaptativa e agente

Processos Decisórios Markovianos (MDPs)

  • Definição formal e propriedades dos MDPs
  • Funções de valor, equações de Bellman e programação dinâmica
  • Avaliação, melhoria e iteração de políticas

Aprendizado por Reforço sem Modelo

  • Aprendizado Monte Carlo e Diferença Temporal (TD)
  • Q-learning e SARSA
  • Prática: implementando métodos RL tabulares em Python

Aprendizado por Reforço Profundo

  • Combinando redes neurais com RL para aproximação de funções
  • Redes Neurais Q-Profundas (DQN) e replay de experiência
  • Arquiteturas Actor-Critic e gradientes de política
  • Prática: treinando um agente usando DQN e PPO com Stable-Baselines3

Estratégias de Exploração e Formatação de Recompensas

  • Equilibrando exploração versus exploração (ε-ganancioso, UCB, métodos de entropia)
  • Projetando funções de recompensa e evitando comportamentos indesejados
  • Formatação de recompensas e aprendizado curricular

Tópicos Avançados em RL e Tomada de Decisão

  • Aprendizado por reforço multi-agente e estratégias cooperativas
  • Aprendizado por reforço hierárquico e framework de opções
  • RL offline e aprendizado por imitação para implementação mais segura

Ambientes de Simulação e Avaliação

  • Usando OpenAI Gym e ambientes personalizados
  • Espaços de ação contínuos versus discretos
  • Métricas para desempenho, estabilidade e eficiência amostral do agente

Integrando RL em Sistemas de IA Agente

  • Combinando raciocínio e RL em arquiteturas híbridas de agentes
  • Integrando aprendizado por reforço com agentes que usam ferramentas
  • Considerações operacionais para escalabilidade e implementação

Projeto Final

  • Projetar e implementar um agente de aprendizado por reforço para uma tarefa simulada
  • Analisar o desempenho do treinamento e otimizar hiperparâmetros
  • Demonstrar comportamento adaptativo e tomada de decisão em um contexto agente

Resumo e Próximos Passos

Requisitos

  • Domínio avançado na programação Python
  • Compreensão sólida de conceitos de aprendizado de máquina e deep learning
  • Familiaridade com álgebra linear, probabilidade e métodos de otimização básicos

Público-Alvo

  • Engenheiros de aprendizado por reforço e pesquisadores de IA aplicada
  • Desenvolvedores de robótica e automação
  • Equipes de engenharia trabalhando em sistemas de IA adaptativa e agente
 28 Horas

Declaração de Clientes (3)

Próximas Formações Provisórias

Categorias Relacionadas