Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução ao Escalamento do Ollama
- A arquitetura do Ollama e considerações sobre escalabilidade
- Bottlenecks comuns em implantações multiusuário
- Melhores práticas para a preparação da infraestrutura
Alinhamento de Recursos e Otimização de GPU
- Estratégias eficientes de utilização CPU/GPU
- Considerações sobre memória e largura de banda
- Restrições de recursos no nível do contêiner
Implantação com Containers e Kubernetes
- Containerizando o Ollama com Docker
- Rodando o Ollama em clusters Kubernetes
- Espalhamento de carga e descoberta de serviços
Autoscaling e Agregação
- Deseñando políticas de autoscaling para o Ollama
- Técnicas de inferência em lote para otimização do throughput
- Balanço entre latência e throughput
Otimização de Latência
- Perfilando o desempenho da inferência
- Estratégias de caching e aquecimento do modelo
- Redução de sobrecarga de E/S e comunicação
Monitoramento e Observabilidade
- Integração do Prometheus para métricas
- Criação de painéis com Grafana
- Avisos e resposta a incidentes na infraestrutura Ollama
Gestão de Custo e Estratégias de Escalamento
- Alinhamento de GPU ciente do custo
- Considerações sobre implantação em nuvem vs. local
- Estratégias para escalabilidade sustentável
Resumo e Próximos Passos
Requisitos
- Experiência com administração de sistemas Linux
- Compreensão de contêinerização e orquestração
- Familiaridade com a implantação de modelos de aprendizado de máquina
Público-alvo
- Engenheiros DevOps
- Equipes de infraestrutura ML
- Engenheiros de confiabilidade do site
21 Horas