Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Visão Geral das Tecnologias de Reconhecimento de Fala
- História e evolução do reconhecimento de fala
- Modelos acústicos, modelos de linguagem e decodificação
- Arquiteturas modernas: RNNs, transformers e Whisper
Pré-processamento de Áudio e Bases da Transcrição
- Lidando com formatos de áudio e taxas de amostragem
- Limpeza, recorte e segmentação de áudio
- Geração de texto a partir do áudio: tempo real vs. lote
Prática com Whisper e Outras APIs
- Instalação e uso do OpenAI Whisper
- Chamada de APIs em nuvem (Google, Azure) para transcrição
- Comparação de desempenho, latência e custo
Idiomas, Sotaques e Adaptação de Domínio
- Trabalhando com múltiplos idiomas e sotaques
- Vocabulários personalizados e tolerância ao ruído
- Lidando com linguagem legal, médica ou técnica
Formatação de Saída e Integração
- Adicionando carimbos de data e hora, pontuação e rótulos de falantes
- Exportação para formatos de texto, SRT ou JSON
- Integração de transcrições em aplicativos ou bancos de dados
Laboratórios de Implementação de Casos de Uso
- Transcrevendo reuniões, entrevistas ou podcasts
- Sistemas de comando voz em texto
- Legendas em tempo real para fluxos de vídeo/áudio
Avaliação, Limitações e Ética
- Métricas de precisão e benchmarking de modelos
- Viés e equidade nos modelos de fala
- Considerações de privacidade e conformidade
Resumo e Próximos Passos
Requisitos
- Compreensão dos conceitos gerais de IA e aprendizado de máquina
- Familiaridade com formatos e ferramentas de áudio ou mídia
Público-Alvo
- Cientistas de dados e engenheiros de IA trabalhando com dados de voz
- Desenvolvedores de software construindo aplicativos baseados em transcrição
- Organizações explorando o reconhecimento de fala para automação
14 Horas