Programa do Curso

Introdução ao Predictive AIOps

  • Visão geral da análise preditiva em operações de TI
  • Fontes de dados para previsão (logs, métricas, eventos)
  • Conceitos-chave na previsão de séries temporais e padrões de anomalias

Delineando Modelos de Previsão de Incidentes

  • Rótulo de incidentes históricos e comportamento do sistema
  • Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
  • Avaliação do desempenho do modelo e gerenciamento de falsos positivos

Coleção de Dados e Engenharia de Características

  • Ingestão e alinhamento dos dados de logs e métricas para entrada no modelo
  • Extração de características de dados estruturados e não estruturados
  • Lidando com ruído e dados ausentes em pipelines operacionais

Automatizando a Análise da Causa Raiz (RCA)

  • Correlação baseada em gráficos de serviços e infraestrutura
  • Usando ML para inferir possíveis causas raiz a partir de cadeias de eventos
  • Visualizando RCA com painéis sensíveis à topologia

Remediação e Workflow Automation

  • Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
  • Desencadeando rollbacks, reinícios ou redirecionamento do tráfego
  • Auditoria e documentação de intervenções automatizadas

Escalar Pipelines Inteligentes AIOps

  • MLOps para observabilidade: reentrenamento e versão do modelo
  • Executando previsões em tempo real em nós distribuídos
  • Melhores práticas para implantação de AIOps em ambientes de produção

Casos de Estudo e Aplicações Práticas

  • Análise de dados reais de incidentes usando modelos preditivos AIOps
  • Implantando pipelines RCA com dados sintéticos e de produção
  • Revisão de casos de uso da indústria: interrupções na nuvem, instabilidade de microsserviços, degradação da rede

Resumo e Próximos Passos

Requisitos

  • Experiência com sistemas de monitoramento como Prometheus ou ELK
  • Conhecimento prático em Python e aprendizado de máquina básico
  • Familiaridade com fluxos de trabalho de gerenciamento de incidentes

Público-alvo

  • Engenheiros seniores de confiabilidade do site (SREs)
  • Arquitetos de automação IT
  • Líderes de plataformas DevOps e observabilidade
 14 Horas

Próximas Formações Provisórias

Categorias Relacionadas