Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução à IA multimodal
- O que é a IA multimodal?
- Principais desafios e aplicações
- Visão geral dos principais modelos multimodais
Processamento de texto e compreensão da linguagem natural
- Tirar partido dos LLMs para agentes de IA baseados em texto
- Compreender a engenharia de pedidos para tarefas multimodais
- Afinação de modelos de texto para aplicações específicas de um domínio
Reconhecimento e geração de imagens
- Processamento de imagens com IA: classificação, legendagem e deteção de objectos
- Geração de imagens com modelos de difusão (Stable Diffusion, DALLE)
- Integração de dados de imagem com modelos baseados em texto
Processamento de voz e áudio
- Reconhecimento do discurso com Whisper ASR
- Técnicas de síntese de texto para voz (TTS)
- Melhorar a interação do utilizador com IA baseada na voz
Integração de entradas multimodais
- Criar condutas de IA para processar vários tipos de entrada
- Técnicas de fusão para combinar dados de texto, imagem e voz
- Aplicações no mundo real de agentes de IA multimodais
Implementação multimodal AI Agents
- Criar soluções de IA multimodal orientadas para API
- Otimização de modelos para desempenho e escalabilidade
- Melhores práticas para implementar a IA multimodal na produção
Considerações éticas e tendências futuras
- Preconceito e equidade na IA multimodal
- Preocupações de privacidade com dados multimodais
- Desenvolvimentos futuros na IA multimodal
Resumo e próximas etapas
Requisitos
- Conhecimento dos fundamentos da aprendizagem automática
- Experiência com programação Python
- Familiaridade com estruturas de aprendizagem profunda (por exemplo, TensorFlow, PyTorch)
Público-alvo
- Programadores de IA
- Investigadores
- Engenheiros de multimédia
21 Horas
Declaração de Clientes (1)
Treinador respondendo perguntas na hora.
Adrian
Curso - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Máquina Traduzida