Programa do Curso

Introdução à Multimodalidade do Gemini 3

  • Capacidades em texto, imagens, áudio e vídeo
  • Seleção de modelos e visão geral dos endpoints
  • Conceitos-chave no raciocínio multimodal

Trabalhando com Texto e Entradas Estruturadas

  • Estratégias de prompting para geração de texto
  • Metadados, janelas de contexto e embeddings
  • Orquestração baseada em texto de tarefas multimodais

Compreensão de Imagens e Workflows Visuais

  • Análise e interpretação de imagens com o Gemini 3
  • Criação de ferramentas de pesquisa visual e etiquetagem
  • Construção de interações de imagem para texto e texto para imagem

Processamento de Entrada de Áudio

  • Fluxos de trabalho de reconhecimento e transcrição de fala
  • Detecção e interpretação de eventos de áudio
  • Integração de áudio com entradas de texto e visual

Inteligência de Vídeo e Análise de Cena

  • Raciocínio por quadro a quadro e contínuo em vídeo
  • Criação de ferramentas de resumo e extração de destaques
  • Automação baseada em vídeo e fluxos de trabalho de conteúdo

Projetando Arquiteturas de Aplicações Multimodais

  • Combinação de múltiplos tipos de entrada em um único pipeline
  • Considerações sobre latência, custo e computação
  • Melhores práticas para sistemas multimodais escaláveis

Prototipando Aplicações Multimodais

  • Criação hands-on de protótipos multimodais
  • Iteração rápida com engenharia de prompts
  • Teste e refinamento dos fluxos de experiência do usuário

Implementando Soluções Multimodais

  • Estratégias de implementação e configuração do ambiente
  • Monitoramento do desempenho no mundo real
  • Considerações sobre segurança e conformidade

Resumo e Próximos Passos

Requisitos

  • Entendimento dos conceitos modernos de IA
  • Experiência com Python ou JavaScript
  • Familiaridade com APIs REST

Público-Alvo

  • Designers
  • Criadores de conteúdo
  • Equipes técnicas de produto
 14 Horas

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas