Programa do Curso

Visão geral rápida

  • Fontes de dados
  • Cuidando dos Dados
  • Sistemas de recomendação
  • Alvo Marketing

Tipos de dados

  • Estruturado vs não estruturado
  • Estático vs transmitido
  • Dados atitudinais, comportamentais e demográficos
  • Análise baseada em dados versus análise baseada no usuário
  • validade dos dados
  • Volume, velocidade e variedade de dados

Modelos

  • Construindo modelos
  • Modelos Estatísticos
  • Aprendizado de máquina

Classificação de dados

  • Agrupamento
  • kGroups, k-means, os vizinhos mais próximos
  • Colônias de formigas, pássaros reunidos

Modelos Preditivos

  • Árvores de decisão
  • Máquina de vetores de suporte
  • Classificação ingênua de Bayes
  • Redes neurais
  • Modelo de Markov
  • Regressão
  • Métodos de conjunto

ROI

  • Relação benefício/custo
  • Custo do software
  • Custo de desenvolvimento
  • Benefícios potenciais

Construindo Modelos

  • Preparação de dados (MapReduce)
  • Limpeza de dados
  • Escolhendo métodos
  • Modelo em desenvolvimento
  • Modelo de teste
  • Avaliação do modelo
  • Implantação e integração de modelo

Visão geral de código aberto e software comercial

  • Seleção do pacote de projeto R
  • Python bibliotecas
  • Hadoop e Mahout
  • Projetos Apache selecionados relacionados a Big Data e Analytics
  • Solução comercial selecionada
  • Integração com software e fontes de dados existentes

Requisitos

Compreensão dos métodos tradicionais de gestão e análise de dados como SQL, armazéns de dados, business intelligence, OLAP, etc... Conhecimentos básicos de estatística e probabilidade (média, variância, probabilidade, probabilidade condicional, etc.)

 21 horas

Declaração de Clientes (2)

Categorias Relacionadas