Programa do Curso

Introdução aos Modelos de Visão-Linguagem

  • Visão geral dos MVLs e seu papel na IA multimodal
  • Arquiteturas populares: CLIP, Flamingo, BLIP, etc.
  • Casos de uso: pesquisa, legendagem, sistemas autônomos, análise de conteúdo

Preparando o Ambiente de Fine-Tuning

  • Configurando OpenCLIP e outras bibliotecas MVL
  • Formatos de dataset para pares imagem-texto
  • Pipelines de pré-processamento para entradas visuais e linguísticas

Fine-Tuning do CLIP e Modelos Similares

  • Pérdida contrastiva e espaços de incorporação conjunta
  • Mão na massa: fine-tuning do CLIP em datasets personalizados
  • Manuseio de dados específicos de domínio e multilinguísticos

Técnicas Avançadas de Fine-Tuning

  • Usando LoRA e métodos baseados em adaptadores para eficiência
  • Ajuste de prompt e injeção de prompt visual
  • Comparações entre avaliação zero-shot e fine-tuned

Avaliação e Benchmarking

  • Métricas para MVLs: precisão de recuperação, BLEU, CIDEr, recall
  • Diagnostics de alinhamento visual-textual
  • Visualização de espaços de incorporação e classificações incorretas

Implantação e Uso em Aplicações Reais

  • Exportando modelos para inferência (TorchScript, ONNX)
  • Integrando MVLs em pipelines ou APIs
  • Considerações de recursos e escalonamento do modelo

Estudos de Caso e Cenários Aplicados

  • Análise de mídia e moderação de conteúdo
  • Pesquisa e recuperação em comércio eletrônico e bibliotecas digitais
  • Interação multimodal em robótica e sistemas autônomos

Resumo e Próximos Passos

Requisitos

  • Um entendimento de deep learning para visão e PLN (Processamento de Linguagem Natural)
  • Experiência com PyTorch e modelos baseados em transformadores
  • Familiaridade com arquiteturas de modelos multimodais

Público-Alvo

  • Engenheiros de visão computacional
  • Desenvolvedores de IA
 14 Horas

Próximas Formações Provisórias

Categorias Relacionadas