Programa do Curso

Introdução à Ciência de Dados para Análise de Big Data

  • Visão Geral da Ciência de Dados
  • Visão Geral do Big Data
  • Estruturas de Dados
  • Motivadores e Complexidades do Big Data
  • Ecosistema do Big Data e uma nova abordagem para análise de dados
  • Tecnologias Chave no Big Data
  • Processo e Problemas da Mineração de Dados
    • Mineração de Padrões de Associação
    • Agrupamento de Dados
    • Deteção de Outliers
    • Classificação de Dados

Introdução ao Ciclo de Vida da Análise de Dados

  • Descoberta
  • Preparação de Dados
  • Planejamento do Modelo
  • Construção do Modelo
  • Apresentação/Comunicação dos Resultados
  • Operacionalização
  • Exercício: Estudo de Caso

A partir deste ponto, a maior parte do tempo de treinamento (80%) será dedicada a exemplos e exercícios em R e tecnologias relacionadas ao big data.

Iniciando com R

  • Instalando R e RStudio
  • Características da Linguagem R
  • Objetos em R
  • Dados em R
  • Manipulação de Dados
  • Questões do Big Data
  • Exercícios

Iniciando com Hadoop

  • Instalando Hadoop
  • Entendendo os Modos de Hadoop
  • HDFS
  • Arquitetura MapReduce
  • Visão Geral dos Projetos Relacionados ao Hadoop
  • Escrevendo Programas em Hadoop MapReduce
  • Exercícios

Integrando R e Hadoop com RHadoop

  • Componentes do RHadoop
  • Instalando o RHadoop e Conectando-se ao Hadoop
  • A Arquitetura do RHadoop
  • Streaming do Hadoop com R
  • Solução de Problemas de Análise de Dados com RHadoop
  • Exercícios

Pré-processamento e Preparação de Dados

  • Etapas de Preparação de Dados
  • Extração de Recursos
  • Limpesa de Dados
  • Integração e Transformação de Dados
  • Redução de Dados – amostragem, seleção de subconjuntos de recursos,
  • Redução da Dimensão
  • Discretização e Agrupamento em Faixas
  • Exercícios e Estudo de Caso

Métodos Analíticos Exploratórios em R

  • Estatísticas Descritivas
  • Análise Exploratória de Dados
  • Visualização – Passos Iniciais
  • Visualizando Variáveis Únicas
  • Examinando Múltiplas Variáveis
  • Métodos Estatísticos para Avaliação
  • Teste de Hipóteses
  • Exercícios e Estudo de Caso

Visualizações de Dados

  • Visualizações Básicas em R
  • Pacotes para Visualização de Dados ggplot2, lattice, plotly, lattice
  • Formatação de Gráficos em R
  • Gráficos Avançados
  • Exercícios

Regressão (Estimativa de Valores Futuros)

  • Regressão Linear
  • Casos de Uso
  • Descrição do Modelo
  • Diagnósticos
  • Problemas com a Regressão Linear
  • Métodos de Redução, Regressão de Crista, o Lasso
  • Generalizações e Não-linearidade
  • Splines de Regressão
  • Regressão Polinomial Local
  • Modelos Aditivos Generalizados
  • Regressão com RHadoop
  • Exercícios e Estudo de Caso

Classificação

  • Problemas Relacionados à Classificação
  • Revisão Bayesiana
  • Bayes Naïve
  • Regressão Logística
  • K-vizinhos Mais Próximos
  • Algoritmo de Árvores de Decisão
  • Redes Neurais
  • Máquinas de Vetores de Suporte
  • Diagnósticos de Classificadores
  • Comparação de Métodos de Classificação
  • Algoritmos de Classificação Escaláveis
  • Exercícios e Estudo de Caso

Avaliação do Desempenho e Seleção de Modelos

  • Vieses, Variância e Complexidade do Modelo
  • Precisão vs. Interpretabilidade
  • Avaliando Classificadores
  • Medidas de Desempenho do Modelo/Algoritmo
  • Método de Validação Hold-out
  • Cross-validation
  • Sintonização de Algoritmos de Aprendizado de Máquina com o Pacote caret
  • Visualização do Desempenho do Modelo com Curvas ROC e Lift

Métodos Ensemble

  • Bagging
  • Florestas Aleatórias
  • Boosting
  • Gradient Boosting
  • Exercícios e Estudo de Caso

Máquinas de Vetores de Suporte para Classificação e Regressão

  • Classificadores de Margem Máxima
    • Classificadores de Vetores de Suporte
    • Máquinas de Vetores de Suporte
    • SVMs para Problemas de Classificação
    • SVMs para Problemas de Regressão
  • Exercícios e Estudo de Caso

Identificando Agrupamentos Desconhecidos em um Conjunto de Dados

  • Seleção de Recursos para Agrupamento
  • Algoritmos Baseados em Representantes: k-means, k-medoids
  • Algoritmos Hierárquicos: Métodos Aglomerativos e Divisivos
  • Algoritmos Probabilísticos: EM
  • Algoritmos Baseados em Densidade: DBSCAN, DENCLUE
  • Validação de Agrupamentos
  • Conceitos Avançados de Agrupamento
  • Agrupamento com RHadoop
  • Exercícios e Estudo de Caso

Descobrindo Conexões com Análise de Links

  • Conceitos de Análise de Links
  • Métricas para Analisar Redes
  • O Algoritmo Pagerank
  • Pesquisa de Tópicos Induzida por Hyperlink
  • Previsão de Links
  • Exercícios e Estudo de Caso

Mineração de Padrões de Associação

  • Modelo de Mineração de Padrões Frequentes
  • Questões de Escalabilidade na Mineração de Padrões Frequentes
  • Algoritmos Brute Force
  • Algoritmo Apriori
  • A Abordagem FP-Growth
  • Avaliação de Regras Candidatas
  • Aplicações de Regras de Associação
  • Validação e Teste
  • Diagnostics
  • Regras de Associação com R e Hadoop
  • Exercícios e Estudo de Caso

Construindo Mecanismos de Recomendação

  • Entendendo Sistemas de Recomendação
  • Técnicas de Mineração de Dados Usadas em Sistemas de Recomendação
  • Sistemas de Recomendação com o Pacote recommenderlab
  • Avaliando os Sistemas de Recomendação
  • Recomendações com RHadoop
  • Exercício: Construção de Motor de Recomendação

Análise de Texto

  • Etapas da Análise de Texto
  • Coleção de Texto Bruto
  • Bag of Words
  • Frequência de Termos – Frequência Inversa do Documento
  • Determinação de Sentimentos
  • Exercícios e Estudo de Caso
 35 Horas

Declaração de Clientes (2)

Próximas Formações Provisórias

Categorias Relacionadas