Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução ao Reinforcement Learning com Feedback Humano (RLHF)
- O que é RLHF e por que isso importa
- Comparação com métodos de fine-tuning supervisionado
- Apllicações do RLHF em sistemas modernos de IA
Modelagem de Recompensas com Feedback Humano
- Colete e estruture o feedback humano
- Criação e treinamento de modelos de recompensa
- Avaliação da eficácia dos modelos de recompensa
Treinamento com Otimização de Política Próxima (PPO)
- Visão geral dos algoritmos PPO para RLHF
- Implementação do PPO com modelos de recompensa
- Ajuste fino iterativo e seguro dos modelos
Aplicações Práticas de Modelos de Linguagem
- Preparando conjuntos de dados para fluxos de trabalho RLHF
- Fine-tuning prático de um pequeno LLM usando RLHF
- Desafios e estratégias de mitigação
Escalação do RLHF para Sistemas de Produção
- Considerações sobre infraestrutura e computação
- Garantia de qualidade e loops de feedback contínuos
- Melhores práticas para implantação e manutenção
Considerações Éticas e Mitigação de Viéses
- Abordando riscos éticos no feedback humano
- Estratégias de detecção e correção de viéses
- Certificando-se da alinhamento e saídas seguras
Estudos de Caso e Exemplos do Mundo Real
- Estudo de caso: Fine-tuning ChatGPT com RLHF
- Outras implantações bem-sucedidas de RLHF
- Aulas aprendidas e insights da indústria
Resumo e Próximos Passos
Requisitos
- Compreensão dos fundamentos de aprendizado supervisionado e reforçado
- Experiência com ajuste fino de modelos e arquiteturas de redes neurais
- Familiaridade com Python programação e frameworks de aprendizado profundo (por exemplo, TensorFlow, PyTorch)
Público-alvo
- Engenheiros Machine Learning
- Pesquisadores em IA
14 Horas
Treinamento Corporativo Personalizado
Soluções de treinamento projetadas exclusivamente para empresas.
- Conteúdo Personalizado: Adaptamos o programa e os exercícios práticos aos objetivos e necessidades reais do seu projeto.
- Horário Flexível: Datas e horários adaptados à agenda da sua equipe.
- Formato: Online (ao vivo), In-Company (em suas instalações) ou Híbrido.
Preço por grupo privado, treinamento online ao vivo, a partir de 2600 € + VAT*
Entre em contato conosco para obter um orçamento preciso e conhecer nossas promoções mais recentes