Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução à Multimodalidade do Gemini 3
- Capacidades em texto, imagens, áudio e vídeo
- Seleção de modelos e visão geral dos endpoints
- Conceitos-chave no raciocínio multimodal
Trabalhando com Texto e Entradas Estruturadas
- Estratégias de prompting para geração de texto
- Metadados, janelas de contexto e embeddings
- Orquestração baseada em texto de tarefas multimodais
Compreensão de Imagens e Workflows Visuais
- Análise e interpretação de imagens com o Gemini 3
- Criação de ferramentas de pesquisa visual e etiquetagem
- Construção de interações de imagem para texto e texto para imagem
Processamento de Entrada de Áudio
- Fluxos de trabalho de reconhecimento e transcrição de fala
- Detecção e interpretação de eventos de áudio
- Integração de áudio com entradas de texto e visual
Inteligência de Vídeo e Análise de Cena
- Raciocínio por quadro a quadro e contínuo em vídeo
- Criação de ferramentas de resumo e extração de destaques
- Automação baseada em vídeo e fluxos de trabalho de conteúdo
Projetando Arquiteturas de Aplicações Multimodais
- Combinação de múltiplos tipos de entrada em um único pipeline
- Considerações sobre latência, custo e computação
- Melhores práticas para sistemas multimodais escaláveis
Prototipando Aplicações Multimodais
- Criação hands-on de protótipos multimodais
- Iteração rápida com engenharia de prompts
- Teste e refinamento dos fluxos de experiência do usuário
Implementando Soluções Multimodais
- Estratégias de implementação e configuração do ambiente
- Monitoramento do desempenho no mundo real
- Considerações sobre segurança e conformidade
Resumo e Próximos Passos
Requisitos
- Entendimento dos conceitos modernos de IA
- Experiência com Python ou JavaScript
- Familiaridade com APIs REST
Público-Alvo
- Designers
- Criadores de conteúdo
- Equipes técnicas de produto
14 Horas
Declaração de Clientes (1)
Fluxo, vibração e tópico na apresentação
Lukasz Kowalczyk - Allegro Sp. z o.o.
Curso - Google Gemini AI for Data Analysis
Máquina Traduzida