Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução à AIOps Preditiva
- Visão geral da análise preditiva em operações de TI
- Fontes de dados para previsão (logs, métricas, eventos)
- Conceitos-chave em previsão de séries temporais e padrões anômalos
Projeto de Modelos de Previsão de Incidentes
- Rotulação de incidentes históricos e comportamento do sistema
- Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
- Avaliação do desempenho do modelo e gerenciamento de falso-positivos
Coleta de Dados e Engenharia de Recursos
- Ingestão e alinhamento de dados de logs e métricas para entrada no modelo
- Extração de recursos de dados estruturados e não estruturados
- Gerenciamento de ruído e dados ausentes em pipelines operacionais
Automação da Análise da Causa Raiz (RCA)
- Correlação baseada em grafos de serviços e infraestrutura
- Uso de ML para inferir causas prováveis a partir de cadeias de eventos
- Visualização de RCA com painéis topologia-aware
Remediação e Automação de Fluxos de Trabalho
- Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
- Acionamento de rollbacks, reinicializações ou redirecionamento de tráfego
- Auditoria e documentação de intervenções automatizadas
Escalabilidade de Pipelines Inteligentes AIOps
- MLOps para observabilidade: reentrenamento e versionamento de modelos
- Execução de previsões em tempo real em nós distribuídos
- Melhores práticas para implantação de AIOps em ambientes de produção
Estudos de Caso e Aplicações Práticas
- Análise de dados reais de incidentes usando modelos AIOps preditivos
- Implantação de pipelines RCA com dados sintéticos e de produção
- Revisão de casos de uso da indústria: interrupções na nuvem, instabilidade de microserviços, degradações de rede
Resumo e Próximos Passos
Requisitos
- Experiência com sistemas de monitoramento como Prometheus ou ELK
- Conhecimento prático de Python e aprendizado de máquina básico
- Familiaridade com fluxos de trabalho de gerenciamento de incidentes
Público-Alvo
- Engenheiros sênior de confiabilidade do site (SREs)
- Arquitetos de automação de TI
- Líderes de plataformas DevOps e observabilidade
14 Horas