Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Fundamentos da Produção do Tencent Hunyuan
- Visão geral dos cenários de serviço de modelos do Tencent Hunyuan
- Características de produção de modelos grandes e MoE
- Gargalos comuns de latência, vazão e custo
- Definição de objetivos de nível de serviço para cargas de trabalho de inferência
Arquitetura de Implantação e Fluxo de Atendimento
- Componentes centrais de uma pilha de inferência em produção
- Escolha entre modelos de implantação em container, local e em nuvem
- Conceitos básicos de carregamento de modelos, roteamento de solicitações e alocação de GPU
- Projetando para confiabilidade e simplicidade operacional
Otimização de Latência na Prática
- Uso de motores de inferência otimizados, como o TensorRT, quando aplicável
- Conceitos de KV-cache e ajuste prático do cache
- Redução de sobrecarga de inicialização, aquecimento e resposta
- Medição do tempo até o primeiro token e da velocidade de geração de tokens
Vazão, Agrupamento de Solicitações e Eficiência de GPU
- Estratégias de agrupamento contínuo e agrupamento de solicitações
- Gerenciamento de concorrência e comportamento de filas
- Melhoria da utilização de GPU sem prejudicar a experiência do usuário
- Lidando com solicitações de contexto longo e cargas de trabalho mistas
Quantização e Controle de Custos
- Por que a quantização é importante para o atendimento em produção
- Compensações práticas das opções de precisão FP16, INT8 e outras comuns
- Equilibrando qualidade do modelo, latência e custo de infraestrutura
- Construindo uma lista de verificação simples para otimização de custos
Operações, Monitoramento e Revisão de Prontidão
- Gatilhos de autoescalonamento para serviços de inferência
- Monitoramento de latência, vazão, uso de cache e saúde da GPU
- Noções básicas de registro de logs, alertas e resposta a incidentes
- Revisando uma implantação de referência e criando um plano de melhoria
Requisitos
- Compreensão básica de implantação de grandes modelos de linguagem e fluxos de trabalho de inferência
- Experiência com containers, infraestrutura em nuvem ou local e serviços baseados em API
- Conhecimento prático de Python ou tarefas de engenharia de sistemas
Público-alvo
- Engenheiros de ML que implantam LLMs em produção
- Engenheiros de plataforma responsáveis por serviços de inferência baseados em GPU
- Arquitetos de soluções que projetam plataformas de atendimento de IA escaláveis
14 Horas
Treinamento Corporativo Personalizado
Soluções de treinamento projetadas exclusivamente para empresas.
- Conteúdo Personalizado: Adaptamos o programa e os exercícios práticos aos objetivos e necessidades reais do seu projeto.
- Horário Flexível: Datas e horários adaptados à agenda da sua equipe.
- Formato: Online (ao vivo), In-Company (em suas instalações) ou Híbrido.
Preço por grupo privado, treinamento online ao vivo, a partir de 2600 € + VAT*
Entre em contato conosco para obter um orçamento preciso e conhecer nossas promoções mais recentes