Programa do Curso
Introdução ao Aprendizado de Máquina
- Tipos de aprendizado de máquina – supervisionado vs não supervisionado
- Do aprendizado estatístico ao aprendizado de máquina
- O fluxo de trabalho de mineração de dados: compreensão do negócio, preparação de dados, modelagem, implantação
- Escolhendo o algoritmo certo para a tarefa
- Overfitting e o compromisso entre viés e variância
Visão Geral das Bibliotecas Python e Aprendizado de Máquina
- Por que usar linguagens de programação para ML
- Escolhendo entre R e Python
- Curso intensivo de Python e Jupyter Notebooks
- Bibliotecas Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testando e Avaliando Algoritmos de Aprendizado de Máquina
- Generalização, overfitting e validação do modelo
- Estratégias de avaliação: holdout, cross-validation, bootstrapping
- Métricas para regressão: ME, MSE, RMSE, MAPE
- Métricas para classificação: precisão, matriz de confusão, classes desbalanceadas
- Visualização do desempenho do modelo: curva de lucro, curva ROC, curva lift
- Seleção de modelos e busca em grade para ajuste
Preparação de Dados
- Importação e armazenamento de dados no Python
- Análise exploratória e estatísticas resumo
- Tratamento de valores faltantes e outliers
- Padronização, normalização e transformação
- Recodificação de dados qualitativos e manipulação de dados com pandas
Algoritmos de Classificação
- Classificação binária vs multiclasse
- Regressão logística e funções discriminantes
- Naïve Bayes, k-vizinhos mais próximos (k-NN)
- Árvores de decisão: CART, Florestas Aleatórias (Random Forests), Bagging, Boosting, XGBoost
- Máquinas de Vetores de Suporte (SVM) e kernels
- Técnicas de aprendizado ensemble
Regressão e Previsão Numérica
- Quadrados mínimos e seleção de variáveis
- Métodos de regularização: L1, L2
- Regressão polinomial e modelos não lineares
- Árvores de regressão e splines
Redes Neurais
- Introdução às redes neurais e aprendizado profundo (deep learning)
- Funções de ativação, camadas e backpropagation
- Perceptrons multicamadas (MLP)
- Usando TensorFlow ou PyTorch para modelagem básica de redes neurais
- Redes neurais para classificação e regressão
Previsão de Vendas e Análise Preditiva
- Previsão baseada em séries temporais vs previsão baseada em regressão
- Tratamento de dados sazonais e tendenciais
- Construindo um modelo de previsão de vendas usando técnicas de ML
- Avaliando a precisão da previsão e incerteza
- Interpretação comercial e comunicação dos resultados
Aprendizado Não Supervisionado
- Técnicas de agrupamento: k-means, k-medoids, clustering hierárquico, SOMs
- Redução de dimensionalidade: PCA, análise fatorial, SVD
- Escalonamento multidimensional
Mineração de Texto
- Pré-processamento e tokenização de texto
- Bolsa de palavras, stemização e lematização
- Análise de sentimento e frequência de palavras
- Visualizando dados de texto com nuvens de palavras (word clouds)
Sistemas de Recomendação
- Filtragem colaborativa baseada em usuário e item
- Design e avaliação de motores de recomendação
Mineração de Padrões de Associação
- Conjuntos de itens frequentes e algoritmo Apriori
- Análise de cesta de compras e razão lift (lift ratio)
Detecção de Outliers
- Análise de valores extremos
- Métodos baseados em distância e densidade
- Detecção de outliers em dados de alta dimensionalidade
Estudo de Caso de Aprendizado de Máquina
- Compreendendo o problema de negócio
- Pré-processamento de dados e engenharia de características
- Seleção de modelo e ajuste de parâmetros
- Avaliação e apresentação dos resultados encontrados
- Implantação
Resumo e Próximos Passos
Requisitos
- Conhecimento básico de conceitos de aprendizado de máquina, como aprendizado supervisionado e não supervisionado
- Familiaridade com programação em Python (variáveis, laços, funções)
- Alguma experiência com manipulação de dados usando bibliotecas como pandas ou NumPy é útil, mas não é obrigatória
- Não se espera experiência prévia com modelagem avançada ou redes neurais
Público-Alvo
- Cientistas de dados
- Analistas de negócios
- Engenheiros de software e profissionais técnicos que trabalham com dados
Declaração de Clientes (2)
o ecossistema de ML não se limita ao MLFlow, mas também inclui o Optuna, hyperopt, Docker e docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Curso - MLflow
Máquina Traduzida
Aproveitei a participação no treinamento Kubeflow, que foi realizado remotamente. Esse treinamento me permitiu consolidar meu conhecimento sobre serviços AWS, K8s e todas as ferramentas DevOps relacionadas ao Kubeflow, que são as bases necessárias para abordar o assunto de forma adequada. Gostaria de agradecer Malawski Marcin por sua paciência e profissionalismo no treinamento e nas dicas sobre práticas recomendadas. Malawski aborda o tema sob diferentes ângulos, com diferentes ferramentas de implantação Ansible, EKS kubectl, Terraform. Agora estou definitivamente convencido de que estou entrando na área correta de aplicação.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Curso - Kubeflow
Máquina Traduzida