Curso de Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos é um curso prático sobre como servir modelos do Tencent Hunyuan de forma confiável em escala.

Esta formação presencial ou online, ministrada por instrutores, é destinada a engenheiros e arquitetos de nível intermediário que desejam utilizar o Tencent Hunyuan para implantar modelos grandes e MoE com menor latência, melhor utilização de GPU e custos operacionais controlados.

Ao final desta formação, os participantes serão capazes de:

explicar os principais desafios de produção ao servir modelos do Tencent Hunyuan.
aplicar técnicas práticas de otimização de inferência, como TensorRT, ajuste de KV-cache, quantização e agrupamento de solicitações (batching).
projetar uma abordagem de implantação escalável com autoescalonamento, monitoramento e planejamento de capacidade.
melhorar as compensações entre latência e custo para cargas de trabalho reais em produção.

Formato do Curso

Aula interativa e discussão.
Numerosos exercícios e prática.
Implementação prática em um ambiente de laboratório ao vivo.

Opções de Personalização do Curso

Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.

Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.

Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.

Programa do Curso

Fundamentos da Produção do Tencent Hunyuan

Visão geral dos cenários de serviço de modelos do Tencent Hunyuan
Características de produção de modelos grandes e MoE
Gargalos comuns de latência, vazão e custo
Definição de objetivos de nível de serviço para cargas de trabalho de inferência

Arquitetura de Implantação e Fluxo de Atendimento

Componentes centrais de uma pilha de inferência em produção
Escolha entre modelos de implantação em container, local e em nuvem
Conceitos básicos de carregamento de modelos, roteamento de solicitações e alocação de GPU
Projetando para confiabilidade e simplicidade operacional

Otimização de Latência na Prática

Uso de motores de inferência otimizados, como o TensorRT, quando aplicável
Conceitos de KV-cache e ajuste prático do cache
Redução de sobrecarga de inicialização, aquecimento e resposta
Medição do tempo até o primeiro token e da velocidade de geração de tokens

Vazão, Agrupamento de Solicitações e Eficiência de GPU

Estratégias de agrupamento contínuo e agrupamento de solicitações
Gerenciamento de concorrência e comportamento de filas
Melhoria da utilização de GPU sem prejudicar a experiência do usuário
Lidando com solicitações de contexto longo e cargas de trabalho mistas

Quantização e Controle de Custos

Por que a quantização é importante para o atendimento em produção
Compensações práticas das opções de precisão FP16, INT8 e outras comuns
Equilibrando qualidade do modelo, latência e custo de infraestrutura
Construindo uma lista de verificação simples para otimização de custos

Operações, Monitoramento e Revisão de Prontidão

Gatilhos de autoescalonamento para serviços de inferência
Monitoramento de latência, vazão, uso de cache e saúde da GPU
Noções básicas de registro de logs, alertas e resposta a incidentes
Revisando uma implantação de referência e criando um plano de melhoria

Requisitos

Compreensão básica de implantação de grandes modelos de linguagem e fluxos de trabalho de inferência
Experiência com containers, infraestrutura em nuvem ou local e serviços baseados em API
Conhecimento prático de Python ou tarefas de engenharia de sistemas

Público-alvo

Engenheiros de ML que implantam LLMs em produção
Engenheiros de plataforma responsáveis por serviços de inferência baseados em GPU
Arquitetos de soluções que projetam plataformas de atendimento de IA escaláveis

14 Horas

Treinamento Corporativo Personalizado

Soluções de treinamento projetadas exclusivamente para empresas.

Conteúdo Personalizado: Adaptamos o programa e os exercícios práticos aos objetivos e necessidades reais do seu projeto.
Horário Flexível: Datas e horários adaptados à agenda da sua equipe.
Formato: Online (ao vivo), In-Company (em suas instalações) ou Híbrido.

Investimento

Preço por grupo privado, treinamento online ao vivo, a partir de 2600 € + VAT*

Entre em contato conosco para obter um orçamento preciso e conhecer nossas promoções mais recentes

(*O preço final pode variar dependendo da especialização técnica do curso, do nível de personalização, do método de entrega e do número de participantes)

Precisa de ajuda para escolher o curso certo?
info@nobleprog.pt ou +351 30 050 9666

Curso de Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Programa do Curso

Requisitos

Treinamento Corporativo Personalizado

Próximas Formações Provisórias

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Categorias Relacionadas

Este site em outros países/regiões

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Curso de Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Programa do Curso

Requisitos

Treinamento Corporativo Personalizado

Próximas Formações Provisórias

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Implantando o Tencent Hunyuan em Produção: Inferência de Baixa Latência e Otimização de Custos

Cursos Relacionados

Avançado LangGraph: Otimização, Depuração e Monitoramento de Grafos Complexos

Construindo Agentes de Codificação com Devstral: Do Design do Agente ao Tooling

Open-Source Model Ops: Auto-Hospedagem, Ajuste Fino e Governança com Modelos Devstral & Mistral

Aplicações de LangGraph na Finanças

Fundamentos do LangGraph: Prompting e Encadeamento Baseado em Grafos

LangGraph em Saúde: Orquestração de Fluxos de Trabalho para Ambientes Regulados

LangGraph para Aplicações Legais

Construindo Fluxos de Trabalho Dinâmicos com LangGraph e Agentes LLM

LangGraph para Automação de Marketing

Le Chat Enterprise: ChatOps Privado, Integrações e Controles de Administração

Arquiteturas de LLM Custos-Eficientes: Mistral em Escala (Desempenho / Engenharia de Custo)

Productizando Assistentes Conversacionais com Conectores e Integrações Mistral

Implantações de Grau Empresarial com Mistral Medium 3

Mistral para IA Responsável: Privacidade, Residência de Dados e Controles Empresariais

Aplicações Multimodais com Modelos Mistral (Visão, OCR e Compreensão de Documentos)

Categorias Relacionadas

Large Language Models (LLMs)

Este site em outros países/regiões

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites