Programa do Curso

Introdução à Análise de Dados e Big Data

  • O Que Torna o Big Data "Grande"?
    • Velocidade, Volume, Variedade, Veracidade (VVVV)
  • Limites do Processamento de Dados Tradicional
  • Processamento Distribuído
  • Análise Estatística
  • Tipos de Análise de Aprendizado de Máquina
  • Visualização de Dados

Papéis e Responsabilidades no Big Data

  • Administradores
  • Desenvolvedores
  • Analistas de Dados

Linguagens Usadas para Análise de Dados

  • Linguagem R
    • Por Que o R para Análise de Dados?
    • Manipulação de dados, cálculo e exibição gráfica
  • Python
    • Por Que Python para Análise de Dados?
    • Manipulação, processamento, limpeza e análise de dados

Aproximações à Análise de Dados

  • Análise Estatística
    • Análise de Séries Temporais
    • Previsão com Modelos de Correlação e Regressão
    • Estatística Inferencial (estimativa)
    • Estatística Descritiva em Conjuntos de Dados Grandes (por exemplo, cálculo da média)
  • Aprendizado de Máquina
    • Aprendizado supervisionado vs. não supervisionado
    • Classificação e agrupamento
    • Estimativa do custo de métodos específicos
    • Filtragem
  • Processamento de Linguagem Natural
    • Processamento de texto
    • Compreensão do significado do texto
    • Geração automática de texto
    • Análise de sentimento / análise de tópicos
  • Visionamento Computacional
    • Aquisição, processamento, análise e entendimento de imagens
    • Reconstrução, interpretação e compreensão de cenas 3D
    • Uso de dados de imagem para tomar decisões

Infraestrutura do Big Data

  • Armazenamento de Dados
    • Bancos de dados relacionais (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bancos de dados não relacionais (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Entendendo as nuances
      • Bancos de dados hierárquicos
      • Bancos de dados orientados a objetos
      • Bancos de dados orientados a documentos
      • Bancos de dados orientados a grafos
      • Outros
  • Processamento Distribuído
    • Hadoop
      • HDFS como um sistema de arquivos distribuído
      • MapReduce para processamento distribuído
    • Spark
      • Framework de computação em cluster de memória integrado para processamento de dados em larga escala
      • Streaming estruturado
      • Spark SQL
      • Bibliotecas de Aprendizado de Máquina: MLlib
      • Processamento de grafos com GraphX
  • Escalabilidade
    • Nuvem pública
      • AWS, Google, Aliyun, etc.
    • Nuvem privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidade automática

Escolhendo a Solução Certa para o Problema

O Futuro do Big Data

Resumo e Próximos Passos

Requisitos

  • Um entendimento geral de matemática
  • Um entendimento geral de programação
  • Um entendimento geral de bancos de dados

Público-alvo

  • Desenvolvedores / programadores
  • Consultores de TI
 35 Horas

Declaração de Clientes (7)

Próximas Formações Provisórias

Categorias Relacionadas