Programa do Curso

Introdução à Ciência de Dados para Análise de Big Data

  • Visão Geral da Ciência de Dados
  • Visão Geral do Big Data
  • Estruturas de Dados
  • Determinantes e Complexidades do Big Data
  • Ecosistema do Big Data e uma Nova Abordagem para Análise de Dados
  • Tecnologias Chave em Big Data
  • Processo de Mineração de Dados e Problemas Relacionados
    • Mineração de Padrões de Associação
    • Agrupamento de Dados
    • Deteção de Outliers
    • Classificação de Dados

Introdução ao Ciclo de Vida da Análise de Dados

  • Descoberta
  • Preparação de Dados
  • Planejamento do Modelo
  • Criação do Modelo
  • Apresentação/Comunicação dos Resultados
  • Operacionalização
  • Exercício: Estudo de Caso

A partir deste ponto, a maior parte do tempo de treinamento (80%) será dedicada a exemplos e exercícios em R e tecnologias relacionadas ao Big Data.

Começando com R

  • Instalação do R e Rstudio
  • Características da Linguagem R
  • Objetos em R
  • Dados em R
  • Questões Relacionadas ao Big Data
  • Exercícios

Começando com Hadoop

  • Instalação do Hadoop
  • Noções de Modos do Hadoop
  • HDFS
  • Arquitetura MapReduce
  • Visão Geral dos Projetos Relacionados ao Hadoop
  • Escrevendo Programas em Hadoop MapReduce
  • Exercícios

Integrando R e Hadoop com RHadoop

  • Componentes do RHadoop
  • Instalação do RHadoop e Conexão com o Hadoop
  • A Arquitetura do RHadoop
  • Streaming Hadoop com R
  • Solução de Problemas de Análise de Dados com RHadoop
  • Exercícios

Pré-processamento e Preparação de Dados

  • Etapas de Preparação de Dados
  • Extração de Características
  • Limpieza de Dados
  • Integração e Transformação de Dados
  • Redução de Dados – Amostragem, Seleção de Subconjunto de Características,
  • Redução da Dimensão
  • Discretização e Binning
  • Exercícios e Estudo de Caso

Métodos de Análise Exploratória de Dados em R

  • Estatísticas Descritivas
  • Análise Exploratória de Dados
  • Visualização – Passos Iniciais
  • Visualização de Variável Única
  • Exame de Múltiplas Variáveis
  • Métodos Estatísticos para Avaliação
  • Teste de Hipóteses
  • Exercícios e Estudo de Caso

Visualizações de Dados

  • Visualizações Básicas em R
  • Pacotes para Visualização de Dados ggplot2, lattice, plotly, lattice
  • Formatação de Gráficos em R
  • Gráficos Avançados
  • Exercícios

Regressão (Estimativa de Valores Futuros)

  • Regressão Linear
  • Casos de Uso
  • Descrição do Modelo
  • Diagnóstico
  • Problemas com a Regressão Linear
  • Métodos de Redução, Regressão em Crista, o Lasso
  • Generalizações e Não Linearidade
  • Splines de Regressão
  • Regressão Polinomial Local
  • Modelos Aditivos Generalizados
  • Regressão com RHadoop
  • Exercícios e Estudo de Caso

Classificação

  • Problemas Relacionados à Classificação
  • Revisão Bayesiana
  • Naïve Bayes
  • Regressão Logística
  • K-vizinhos mais Próximos
  • Algoritmo de Árvores de Decisão
  • Redes Neurais
  • Máquinas de Vetores de Suporte
  • Diagnóstico de Classificadores
  • Comparação de Métodos de Classificação
  • Algoritmos de Classificação Escaláveis
  • Exercícios e Estudo de Caso

Avaliação do Desempenho e Seleção de Modelos

  • Vies, Variância e Complexidade do Modelo
  • Precisão vs. Interpretabilidade
  • Avaliação de Classificadores
  • Métricas de Desempenho de Modelos/Algoritmos
  • Método de Validação Hold-out
  • Cross-validation
  • Ajuste de Algoritmos de Aprendizado de Máquina com o Pacote caret
  • Visualização do Desempenho do Modelo com Curvas ROC e Lift

Métodos Ensemble

  • Bagging
  • Florestas Aleatórias
  • Boosting
  • Gradient Boosting
  • Exercícios e Estudo de Caso

Máquinas de Vetores de Suporte para Classificação e Regressão

  • Classificadores de Margem Máxima
    • Classificadores de Vetores de Suporte
    • Máquinas de Vetores de Suporte
    • SVMs para Problemas de Classificação
    • SVMs para Problemas de Regressão
  • Exercícios e Estudo de Caso

Identificação de Agrupamentos Desconhecidos em um Conjunto de Dados

  • Seleção de Características para Agrupamento
  • Algoritmos Baseados em Representantes: k-means, k-medoids
  • Algoritmos Hierárquicos: Métodos Aglomerativos e Divisivos
  • Algoritmos Probabilísticos: EM
  • Algoritmos Baseados em Densidade: DBSCAN, DENCLUE
  • Validação de Agrupamentos
  • Conceitos Avançados de Agrupamento
  • Agrupamento com RHadoop
  • Exercícios e Estudo de Caso

Descobrindo Conexões com Análise de Links

  • Noções de Análise de Links
  • Métricas para Análise de Redes
  • O Algoritmo Pagerank
  • Pesquisa de Tópicos Induzidos por Hiperlinks
  • Predição de Links
  • Exercícios e Estudo de Caso

Mineração de Padrões de Associação

  • Modelo de Mineração de Padrões Frequentes
  • Questões de Escalabilidade na Mineração de Padrões Frequentes
  • Algoritmos de Força Bruta
  • Algoritmo Apriori
  • A Abordagem FP Growth
  • Avaliação de Regras Candidatas
  • Aplicações de Regras de Associação
  • Validação e Teste
  • Diagnóstico
  • Regras de Associação com R e Hadoop
  • Exercícios e Estudo de Caso

Construindo Sistemas de Recomendação

  • Noções de Sistemas de Recomendação
  • Técnicas de Mineração de Dados Usadas em Sistemas de Recomendação
  • Sistemas de Recomendação com o Pacote recommenderlab
  • Avaliação dos Sistemas de Recomendação
  • Recomendações com RHadoop
  • Exercício: Construção de Sistema de Recomendação

Análise de Texto

  • Etapas da Análise de Texto
  • Coleção de Texto Bruto
  • Bolsa de Palavras
  • Frequência do Termo – Inversão da Frequência do Documento
  • Determinação de Sentimentos
  • Exercícios e Estudo de Caso
 35 Horas

Declaração de Clientes (2)

Próximas Formações Provisórias

Categorias Relacionadas