Programa do Curso

Introdução à AI Multimodal e Ollama

  • Visão geral do aprendizado multimodal
  • Principais desafios na integração visão-linguagem
  • Habilidades e arquitetura da Ollama

Criando o Ambiente Ollama

  • Instalação e configuração do Ollama
  • Trabalhando com implantação local de modelos
  • Integrando Ollama com Python e Jupyter

Trabalhando com Entradas Multimodais

  • Integração de texto e imagem
  • Incorporação de áudio e dados estruturados
  • Delineando pipelines de pré-processamento

Apllicações de Compreensão Documental

  • Extraindo informações estruturadas de PDFs e imagens
  • Combinação de OCR com modelos linguísticos
  • Criando fluxos de trabalho de análise inteligente de documentos

Perguntas e Respostas Visuais (VQA)

  • Configurando conjuntos de dados VQA e benchmarks
  • Treinamento e avaliação de modelos multimodais
  • Criando aplicações interativas de VQA

Delineando Agentes Multimodais

  • Princípios do design de agentes com raciocínio multimodal
  • Combinando percepção, linguagem e ação
  • Implantando agentes para casos reais de uso

Integrações Avançadas e Otimizações

  • Ajuste fino de modelos multimodais com Ollama
  • Otimize o desempenho da inferência
  • Considerações sobre escalabilidade e implantação

Resumo e Próximos Passos

Requisitos

  • Compreensão sólida de conceitos de aprendizado de máquina
  • Experiência com frameworks de deep learning como PyTorch ou TensorFlow
  • Familiaridade com processamento de linguagem natural e visão computacional

Público-Alvo

  • Engenheiros de aprendizado de máquina
  • Investigadores de IA
  • Desenvolvedores de produtos que integram fluxos de trabalho de visão e texto
 21 Horas

Próximas Formações Provisórias

Categorias Relacionadas