Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução ao Predictive AIOps
- Visão geral da análise preditiva em operações de TI
- Fontes de dados para previsão (logs, métricas, eventos)
- Conceitos-chave na previsão de séries temporais e padrões de anomalias
Delineando Modelos de Previsão de Incidentes
- Rótulo de incidentes históricos e comportamento do sistema
- Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
- Avaliação do desempenho do modelo e gerenciamento de falsos positivos
Coleção de Dados e Engenharia de Características
- Ingestão e alinhamento dos dados de logs e métricas para entrada no modelo
- Extração de características de dados estruturados e não estruturados
- Lidando com ruído e dados ausentes em pipelines operacionais
Automatizando a Análise da Causa Raiz (RCA)
- Correlação baseada em gráficos de serviços e infraestrutura
- Usando ML para inferir possíveis causas raiz a partir de cadeias de eventos
- Visualizando RCA com painéis sensíveis à topologia
Remediação e Workflow Automation
- Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
- Desencadeando rollbacks, reinícios ou redirecionamento do tráfego
- Auditoria e documentação de intervenções automatizadas
Escalar Pipelines Inteligentes AIOps
- MLOps para observabilidade: reentrenamento e versão do modelo
- Executando previsões em tempo real em nós distribuídos
- Melhores práticas para implantação de AIOps em ambientes de produção
Casos de Estudo e Aplicações Práticas
- Análise de dados reais de incidentes usando modelos preditivos AIOps
- Implantando pipelines RCA com dados sintéticos e de produção
- Revisão de casos de uso da indústria: interrupções na nuvem, instabilidade de microsserviços, degradação da rede
Resumo e Próximos Passos
Requisitos
- Experiência com sistemas de monitoramento como Prometheus ou ELK
- Conhecimento prático em Python e aprendizado de máquina básico
- Familiaridade com fluxos de trabalho de gerenciamento de incidentes
Público-alvo
- Engenheiros seniores de confiabilidade do site (SREs)
- Arquitetos de automação IT
- Líderes de plataformas DevOps e observabilidade
14 Horas