Programa do Curso

Introdução ao AIOps com Ferramentas Open Source

  • Visão geral dos conceitos e benefícios do AIOps
  • Prometheus e Grafana na pilha de observabilidade
  • Onde a ML se encaixa no AIOps: análise predictiva vs. reativa

Configurando Prometheus e Grafana

  • Instalação e configuração do Prometheus para coleta de séries temporais
  • Criação de dashboards no Grafana usando métricas em tempo real
  • Explorando exportadores, reetiquetas e descoberta de serviços

Pré-processamento de Dados para ML

  • Extraindo e transformando as métricas do Prometheus
  • Preparação de conjuntos de dados para detecção de anomalias e previsões
  • Usando transformações do Grafana ou pipelines do Python

Aplique Machine Learning para Detecção de Anomalias

  • Modelos de ML básicos para detecção de outliers (por exemplo, Floresta de Isolamento, SVM de Uma Classe)
  • Treinando e avaliando modelos em dados de séries temporais
  • Visualizando anomalias nos dashboards do Grafana

Métricas de Forecasting com ML

  • Criar modelos simples de previsão (ARIMA, Prophet, introdução ao LSTM)
  • Preditores de carga do sistema ou uso de recursos
  • Usando predições para alertas antecipados e decisões de escala

Integrando ML com Alerta e Automação

  • Definindo regras de alerta com base na saída da ML ou em limites
  • Usando o Alertmanager e roteamento de notificações
  • Acionar scripts ou fluxos de trabalho automatizados com detecção de anomalias

Escalar e Operacionalizar AIOps

  • Integrando ferramentas de observabilidade externas (por exemplo, pilha ELK, Moogsoft, Dynatrace)
  • Operacionalizando modelos ML em pipelines de observabilidade
  • Melhores práticas para o AIOps em escala

Resumo e Próximos Passos

Requisitos

  • Compreensão dos conceitos de monitoramento e observabilidade do sistema
  • Experiência usando Grafana ou Prometheus
  • Familiaridade com Python e princípios básicos de aprendizado de máquina

Público-Alvo

  • Engenheiros de observabilidade
  • Equipes de infraestrutura e DevOps
  • Arquitetos de plataformas de monitoramento e engenheiros de confiabilidade do site (SREs)
 14 Horas

Próximas Formações Provisórias

Categorias Relacionadas