Programa do Curso

Introdução ao Escalamento do Ollama

  • A arquitetura do Ollama e considerações sobre escalabilidade
  • Bottlenecks comuns em implantações multiusuário
  • Melhores práticas para a preparação da infraestrutura

Alinhamento de Recursos e Otimização de GPU

  • Estratégias eficientes de utilização CPU/GPU
  • Considerações sobre memória e largura de banda
  • Restrições de recursos no nível do contêiner

Implantação com Containers e Kubernetes

  • Containerizando o Ollama com Docker
  • Rodando o Ollama em clusters Kubernetes
  • Espalhamento de carga e descoberta de serviços

Autoscaling e Agregação

  • Deseñando políticas de autoscaling para o Ollama
  • Técnicas de inferência em lote para otimização do throughput
  • Balanço entre latência e throughput

Otimização de Latência

  • Perfilando o desempenho da inferência
  • Estratégias de caching e aquecimento do modelo
  • Redução de sobrecarga de E/S e comunicação

Monitoramento e Observabilidade

  • Integração do Prometheus para métricas
  • Criação de painéis com Grafana
  • Avisos e resposta a incidentes na infraestrutura Ollama

Gestão de Custo e Estratégias de Escalamento

  • Alinhamento de GPU ciente do custo
  • Considerações sobre implantação em nuvem vs. local
  • Estratégias para escalabilidade sustentável

Resumo e Próximos Passos

Requisitos

  • Experiência com administração de sistemas Linux
  • Compreensão de contêinerização e orquestração
  • Familiaridade com a implantação de modelos de aprendizado de máquina

Público-alvo

  • Engenheiros DevOps
  • Equipes de infraestrutura ML
  • Engenheiros de confiabilidade do site
 21 Horas

Próximas Formações Provisórias

Categorias Relacionadas