Programa do Curso

Cada sessão dura 2 horas

Dia 1: Sessão -1: Business Visão geral do porquê Big Data Business Inteligência em Govt.

  • Estudos de caso do NIH, DoE
  • Big Data taxa de adaptação em Govt. Agências e como elas estão alinhando suas operações futuras em torno de Big Data Predictive Analytics
  • Área de aplicação em larga escala no DoD, NSA, IRS, USDA etc.
  • Interface Big Data com dados legados
  • Compreensão básica de tecnologias habilitadoras em análise preditiva
  • Data Integration e visualização do painel
  • Gestão de fraude
  • Business Geração de detecção de regra/fraude
  • Detecção e criação de perfil de ameaças
  • Análise de custo-benefício para Big Data implementação

Dia 1: Sessão 2: Introdução de Big Data-1

  • Principais características de Big Data-volume, variedade, velocidade e veracidade. Arquitetura MPP para volume.
  • Data Warehouses – esquema estático, conjunto de dados em evolução lenta
  • MPP Database como Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Soluções Baseadas – sem condições na estrutura do conjunto de dados.
  • Padrão típico: HDFS, MapReduce (crunch), recuperação do HDFS
  • Lote adequado para análises/não interativas
  • Volume: dados de streaming CEP
  • Escolhas típicas – produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc.)
  • Menos produção pronta – Storm/S4
  • NoSQL Databases – (colunar e valor-chave): Mais adequado como complemento analítico para data warehouse/banco de dados

Dia 1: Sessão -3: Introdução a Big Data-2

NoSQL soluções

  • Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Loja KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Loja KV (hierárquica) - GT.m, Cache
  • Loja KV (encomendada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Accord
  • Cache KV - Memcached, Repcached, Coerência, Infinispan, EXtremeScale, JBossCache, Velocidade, Terracoqua
  • Loja Tupla - Gigaspaces, Coord, Rio Apache
  • Objeto Database - ZopeDB, DB40, Shoal
  • Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplo armazenamento colunar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de dados: introdução ao problema Data Cleaning em Big Data

  • RDBMS – estrutura/esquema estático, não promove ambiente ágil e exploratório.
  • NoSQL – semiestruturado, estrutura suficiente para armazenar dados sem esquema exato antes de armazenar os dados
  • Problemas de limpeza de dados

Dia 1: Sessão 4: Big Data Introdução-3: Hadoop

  • Quando selecionar Hadoop?
  • ESTRUTURADO - Data warehouses/bancos de dados corporativos podem armazenar dados massivos (a um custo), mas impor estrutura (não é bom para exploração ativa)
  • Dados SEMI ESTRUTURADOS – difíceis de fazer com soluções tradicionais (DW/DB)
  • Dados de armazenamento = ENORME esforço e estática mesmo após a implementação
  • Para variedade e volume de dados, processados em hardware comum – HADOOP
  • H/W de commodities necessário para criar um cluster Hadoop

Introdução à redução de mapa/HDFS

  • MapReduce – distribua computação em vários servidores
  • HDFS – disponibiliza dados localmente para o processo de computação (com redundância)
  • Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
  • Responsabilidade do desenvolvedor em dar sentido aos dados
  • Programming MapReduce = trabalhando com Java (prós/contras), carregando dados manualmente no HDFS

Dia 2: Sessão 1: Big Data Construção de Ecossistemas Big Data ETL: universo de Big Data Ferramentas - qual usar e quando?

  • Hadoop vs. Outras NoSQL soluções
  • Para acesso interativo e aleatório aos dados
  • Hbase (banco de dados orientado a colunas) em cima de Hadoop
  • Acesso aleatório aos dados, mas restrições impostas (máx. 1 PB)
  • Não é bom para análises ad-hoc, é bom para registro, contagem e séries temporais
  • Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
  • Flume – Transmita dados (por exemplo, dados de log) para HDFS

Dia 2: Sessão 2: Big Data Management Sistema

  • Partes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/nomeação
  • Pipeline/fluxo de trabalho complexo: Oozie – gerencie fluxo de trabalho, dependências, ligação em série
  • Implantar, configurar, gerenciamento de cluster, atualizar etc (administrador de sistema): Ambari
  • Na nuvem: Whirr

Dia 2: Sessão 3: Análise preditiva em Business Inteligência -1: Técnicas fundamentais e BI baseado em aprendizado de máquina:

  • Introdução ao aprendizado de máquina
  • Aprendendo técnicas de classificação
  • Arquivo de treinamento de preparação de previsão bayesiana
  • Máquina de vetores de suporte
  • Álgebra KNN p-Tree e mineração vertical
  • Rede neural
  • Big Data problema de grande variável -Floresta aleatória (RF)
  • Big Data Problema de automação – conjunto multimodelo RF
  • Automação através do Soft10-M
  • Ferramenta de análise de texto-Treeminer
  • Agile aprendendo
  • Aprendizagem baseada em agente
  • Aprendizagem distribuída
  • Introdução às ferramentas de código aberto para análise preditiva: R, Rapidminer, Mahut

Dia 2: Sessão 4 Ecossistema de análise preditiva-2: Problemas comuns de análise preditiva em Govt.

  • Análise de insights
  • Análise de visualização
  • Análise preditiva estruturada
  • Análise preditiva não estruturada
  • Perfil de ameaça/fraudstar/fornecedor
  • Mecanismo de recomendação
  • Detecção de padrões
  • Descoberta de regras/cenários – falha, fraude, otimização
  • Descoberta da causa raiz
  • Análise de sentimentos
  • Análise de CRM
  • Análise de rede
  • Análise de texto
  • Revisão assistida por tecnologia
  • Análise de fraude
  • Análise em tempo real

Dia 3: Sessão 1: Tempo Real e Scala Análise Bável Hadoop

  • Por que algoritmos analíticos comuns falham em Hadoop/HDFS
  • Apache Hama- para computação distribuída síncrona em massa
  • Apache SPARK - para computação em cluster para análise em tempo real
  • CMU Graphics Lab2- Abordagem assíncrona baseada em gráficos para computação distribuída
  • Abordagem KNN baseada em p-Álgebra do Treeminer para redução do custo de operação de hardware

Dia 3: Sessão 2 : Ferramentas para descoberta eletrônica e análise forense

  • eDiscovery sobre Big Data vs. dados legados – uma comparação de custo e desempenho
  • Codificação preditiva e revisão assistida por tecnologia (TAR)
  • Demonstração ao vivo de um produto Tar (vMiner) para entender como o TAR funciona para uma descoberta mais rápida
  • Indexação mais rápida através do HDFS – velocidade dos dados
  • Processamento de PNL ou Linguagem Natural – diversas técnicas e produtos de código aberto
  • eDiscovery em línguas estrangeiras - tecnologia para processamento de línguas estrangeiras

Dia 3: Sessão 3: Big Data BI para Cyber Security – Compreendendo visões completas de 360 graus da coleta rápida de dados até a identificação de ameaças

  • Compreender os fundamentos da superfície de ataque analítico de segurança, configuração incorreta de segurança e defesas de host
  • Infraestrutura de rede/ Grande datapipe/ ETL de resposta para análise em tempo real
  • Prescritivo vs preditivo – Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados

Dia 3: Sessão 4: Big Data no USDA: Aplicação na Agricultura

  • Introdução à IoT (Internet das Coisas) para controle e base em sensores agrícolas Big Data
  • Introdução à imagem de satélite e sua aplicação na agricultura
  • Integração de dados de sensores e imagens para fertilidade do solo, recomendação de cultivo e previsão
  • Seguro agrícola e Big Data
  • Previsão de perda de safra

Dia 4: Sessão 1: BI de prevenção de fraude de Big Data em Govt-Fraud analytic:

  • Classificação básica de análise de fraude - análise baseada em regras versus análise preditiva
  • Aprendizado de máquina supervisionado versus não supervisionado para detecção de padrões de fraude
  • Fraude de fornecedor/cobrança excessiva de projetos
  • Fraude do Medicare e Medicaid - técnicas de detecção de fraude para processamento de sinistros
  • Fraudes de reembolso de viagens
  • Fraudes de reembolso do IRS
  • Estudos de caso e demonstrações ao vivo serão fornecidos sempre que houver dados disponíveis.

Dia 4: Sessão 2: Social Media Análise e coleta de inteligência

  • Big Data API ETL para extração de dados de mídia social
  • Texto, imagem, metadados e vídeo
  • Análise de sentimento do feed de mídia social
  • Filtragem contextual e não contextual de feed de mídia social
  • Social Media Painel para integração de diversas mídias sociais
  • Perfil automatizado de perfil de mídia social
  • A demonstração ao vivo de cada análise será fornecida por meio da ferramenta Treeminer.

Dia 4: Sessão 3: Big Data Análise em processamento de imagens e feeds de vídeo

  • Técnicas de armazenamento de imagens em Big Data - Solução de armazenamento para dados superiores a petabytes
  • LTFS e LTO
  • GPFS-LTFS (solução de armazenamento em camadas para grandes dados de imagem)
  • Fundamentos da análise de imagens
  • Reconhecimento de objeto
  • Segmentação de imagens
  • Rastreamento de movimento
  • Reconstrução de imagem 3D

Dia 4: Sessão 4: Big Data aplicações no NIH:

  • Áreas emergentes de Bio-informática
  • Meta-genômica e Big Data questões de mineração
  • Big Data Análise preditiva para Farmacogenômica, Metabolômica e Proteômica
  • Big Data no processo genômico downstream
  • Aplicação de análise preditiva de Big Data em saúde pública

Big Data Painel para acessibilidade rápida de diversos dados e exibição:

  • Integração da plataforma de aplicativos existente com Big Data Dashboard
  • Big Data gestão
  • Estudo de caso do Big Data Painel: Tableau e Pentaho
  • Use o aplicativo Big Data para enviar serviços baseados em localização em Govt.
  • Sistema de rastreamento e gerenciamento

Dia 5: Sessão 1: Como justificar Big Data a implementação de BI dentro de uma organização:

  • Definindo ROI para Big Data implementação
  • Estudos de caso para economizar tempo do analista na coleta e preparação de dados – aumento no ganho de produtividade
  • Estudos de caso de ganho de receita com a redução do custo do banco de dados licenciado
  • Ganho de receita de serviços baseados em localização
  • Economizando com a prevenção de fraudes
  • Uma abordagem de planilha integrada para calcular aprox. despesa vs. ganho/economia de receita da implementação Big Data.

Dia 5: Sessão 2: Procedimento passo a passo para substituir o sistema de dados legado para Big Data Sistema:

  • Compreendendo a prática Big Data Roteiro de migração
  • Quais são as informações importantes necessárias antes de arquitetar uma implementação Big Data
  • Quais são as diferentes formas de calcular volume, velocidade, variedade e veracidade dos dados
  • Como estimar o crescimento dos dados
  • Estudos de caso

Dia 5: Sessão 4: Revisão de Big Data Fornecedores e revisão de seus produtos. Sessão de perguntas/respostas:

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Sistemas
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Sistemas de dados Hitachi
  • Hortonworks
  • HP
  • IBM
  • informática
  • Informações
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluções Ópera
  • Oracle
  • Pentaho
  • Plataforma
  • Qliktech
  • Quântico
  • Rackspace
  • Análise da Revolução
  • Salesforce
  • SAP
  • SAS Instituto
  • Sisense
  • Software AG/Terracota
  • Automação Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Programas
  • Teradata
  • Pense em grandes análises
  • Sistemas de Marca de Maré
  • Mineiro da árvore
  • VMware (Parte da EMC)

Requisitos

  • Conhecimento básico do funcionamento da empresa e dos sistemas de dados do Governo no seu domínio
  • Conhecimentos básicos de SQL/Oracle ou de bases de dados relacionais
  • Compreensão básica de Statistics (a nível de folha de cálculo) 
  35 horas
 

Declaração de Clientes (4)

Cursos Relacionados

Categorias Relacionadas