Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Cada sessão dura 2 horas
Dia 1: Sessão -1: Business Visão geral do porquê Big Data Business Inteligência em Govt.
- Estudos de caso do NIH, DoE
- Big Data taxa de adaptação em Govt. Agências e como elas estão alinhando suas operações futuras em torno de Big Data Predictive Analytics
- Área de aplicação em larga escala no DoD, NSA, IRS, USDA etc.
- Interface Big Data com dados legados
- Compreensão básica de tecnologias habilitadoras em análise preditiva
- Data Integration e visualização do painel
- Gestão de fraude
- Business Geração de detecção de regra/fraude
- Detecção e criação de perfil de ameaças
- Análise de custo-benefício para Big Data implementação
Dia 1: Sessão 2: Introdução de Big Data-1
- Principais características de Big Data-volume, variedade, velocidade e veracidade. Arquitetura MPP para volume.
- Data Warehouses – esquema estático, conjunto de dados em evolução lenta
- MPP Database como Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Soluções Baseadas – sem condições na estrutura do conjunto de dados.
- Padrão típico: HDFS, MapReduce (crunch), recuperação do HDFS
- Lote adequado para análises/não interativas
- Volume: dados de streaming CEP
- Escolhas típicas – produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc.)
- Menos produção pronta – Storm/S4
- NoSQL Databases – (colunar e valor-chave): Mais adequado como complemento analítico para data warehouse/banco de dados
Dia 1: Sessão -3: Introdução a Big Data-2
NoSQL soluções
- Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Loja KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Loja KV (hierárquica) - GT.m, Cache
- Loja KV (encomendada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Accord
- Cache KV - Memcached, Repcached, Coerência, Infinispan, EXtremeScale, JBossCache, Velocidade, Terracoqua
- Loja Tupla - Gigaspaces, Coord, Rio Apache
- Objeto Database - ZopeDB, DB40, Shoal
- Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplo armazenamento colunar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de dados: introdução ao problema Data Cleaning em Big Data
- RDBMS – estrutura/esquema estático, não promove ambiente ágil e exploratório.
- NoSQL – semiestruturado, estrutura suficiente para armazenar dados sem esquema exato antes de armazenar os dados
- Problemas de limpeza de dados
Dia 1: Sessão 4: Big Data Introdução-3: Hadoop
- Quando selecionar Hadoop?
- ESTRUTURADO - Data warehouses/bancos de dados corporativos podem armazenar dados massivos (a um custo), mas impor estrutura (não é bom para exploração ativa)
- Dados SEMI ESTRUTURADOS – difíceis de fazer com soluções tradicionais (DW/DB)
- Dados de armazenamento = ENORME esforço e estática mesmo após a implementação
- Para variedade e volume de dados, processados em hardware comum – HADOOP
- H/W de commodities necessário para criar um cluster Hadoop
Introdução à redução de mapa/HDFS
- MapReduce – distribua computação em vários servidores
- HDFS – disponibiliza dados localmente para o processo de computação (com redundância)
- Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
- Responsabilidade do desenvolvedor em dar sentido aos dados
- Programming MapReduce = trabalhando com Java (prós/contras), carregando dados manualmente no HDFS
Dia 2: Sessão 1: Big Data Construção de Ecossistemas Big Data ETL: universo de Big Data Ferramentas - qual usar e quando?
- Hadoop vs. Outras NoSQL soluções
- Para acesso interativo e aleatório aos dados
- Hbase (banco de dados orientado a colunas) em cima de Hadoop
- Acesso aleatório aos dados, mas restrições impostas (máx. 1 PB)
- Não é bom para análises ad-hoc, é bom para registro, contagem e séries temporais
- Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume – Transmita dados (por exemplo, dados de log) para HDFS
Dia 2: Sessão 2: Big Data Management Sistema
- Partes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/nomeação
- Pipeline/fluxo de trabalho complexo: Oozie – gerencie fluxo de trabalho, dependências, ligação em série
- Implantar, configurar, gerenciamento de cluster, atualizar etc (administrador de sistema): Ambari
- Na nuvem: Whirr
Dia 2: Sessão 3: Análise preditiva em Business Inteligência -1: Técnicas fundamentais e BI baseado em aprendizado de máquina:
- Introdução ao aprendizado de máquina
- Aprendendo técnicas de classificação
- Arquivo de treinamento de preparação de previsão bayesiana
- Máquina de vetores de suporte
- Álgebra KNN p-Tree e mineração vertical
- Rede neural
- Big Data problema de grande variável -Floresta aleatória (RF)
- Big Data Problema de automação – conjunto multimodelo RF
- Automação através do Soft10-M
- Ferramenta de análise de texto-Treeminer
- Agile aprendendo
- Aprendizagem baseada em agente
- Aprendizagem distribuída
- Introdução às ferramentas de código aberto para análise preditiva: R, Rapidminer, Mahut
Dia 2: Sessão 4 Ecossistema de análise preditiva-2: Problemas comuns de análise preditiva em Govt.
- Análise de insights
- Análise de visualização
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfil de ameaça/fraudstar/fornecedor
- Mecanismo de recomendação
- Detecção de padrões
- Descoberta de regras/cenários – falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimentos
- Análise de CRM
- Análise de rede
- Análise de texto
- Revisão assistida por tecnologia
- Análise de fraude
- Análise em tempo real
Dia 3: Sessão 1: Tempo Real e Scala Análise Bável Hadoop
- Por que algoritmos analíticos comuns falham em Hadoop/HDFS
- Apache Hama- para computação distribuída síncrona em massa
- Apache SPARK - para computação em cluster para análise em tempo real
- CMU Graphics Lab2- Abordagem assíncrona baseada em gráficos para computação distribuída
- Abordagem KNN baseada em p-Álgebra do Treeminer para redução do custo de operação de hardware
Dia 3: Sessão 2 : Ferramentas para descoberta eletrônica e análise forense
- eDiscovery sobre Big Data vs. dados legados – uma comparação de custo e desempenho
- Codificação preditiva e revisão assistida por tecnologia (TAR)
- Demonstração ao vivo de um produto Tar (vMiner) para entender como o TAR funciona para uma descoberta mais rápida
- Indexação mais rápida através do HDFS – velocidade dos dados
- Processamento de PNL ou Linguagem Natural – diversas técnicas e produtos de código aberto
- eDiscovery em línguas estrangeiras - tecnologia para processamento de línguas estrangeiras
Dia 3: Sessão 3: Big Data BI para Cyber Security – Compreendendo visões completas de 360 graus da coleta rápida de dados até a identificação de ameaças
- Compreender os fundamentos da superfície de ataque analítico de segurança, configuração incorreta de segurança e defesas de host
- Infraestrutura de rede/ Grande datapipe/ ETL de resposta para análise em tempo real
- Prescritivo vs preditivo – Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados
Dia 3: Sessão 4: Big Data no USDA: Aplicação na Agricultura
- Introdução à IoT (Internet das Coisas) para controle e base em sensores agrícolas Big Data
- Introdução à imagem de satélite e sua aplicação na agricultura
- Integração de dados de sensores e imagens para fertilidade do solo, recomendação de cultivo e previsão
- Seguro agrícola e Big Data
- Previsão de perda de safra
Dia 4: Sessão 1: BI de prevenção de fraude de Big Data em Govt-Fraud analytic:
- Classificação básica de análise de fraude - análise baseada em regras versus análise preditiva
- Aprendizado de máquina supervisionado versus não supervisionado para detecção de padrões de fraude
- Fraude de fornecedor/cobrança excessiva de projetos
- Fraude do Medicare e Medicaid - técnicas de detecção de fraude para processamento de sinistros
- Fraudes de reembolso de viagens
- Fraudes de reembolso do IRS
- Estudos de caso e demonstrações ao vivo serão fornecidos sempre que houver dados disponíveis.
Dia 4: Sessão 2: Social Media Análise e coleta de inteligência
- Big Data API ETL para extração de dados de mídia social
- Texto, imagem, metadados e vídeo
- Análise de sentimento do feed de mídia social
- Filtragem contextual e não contextual de feed de mídia social
- Social Media Painel para integração de diversas mídias sociais
- Perfil automatizado de perfil de mídia social
- A demonstração ao vivo de cada análise será fornecida por meio da ferramenta Treeminer.
Dia 4: Sessão 3: Big Data Análise em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens em Big Data - Solução de armazenamento para dados superiores a petabytes
- LTFS e LTO
- GPFS-LTFS (solução de armazenamento em camadas para grandes dados de imagem)
- Fundamentos da análise de imagens
- Reconhecimento de objeto
- Segmentação de imagens
- Rastreamento de movimento
- Reconstrução de imagem 3D
Dia 4: Sessão 4: Big Data aplicações no NIH:
- Áreas emergentes de Bio-informática
- Meta-genômica e Big Data questões de mineração
- Big Data Análise preditiva para Farmacogenômica, Metabolômica e Proteômica
- Big Data no processo genômico downstream
- Aplicação de análise preditiva de Big Data em saúde pública
Big Data Painel para acessibilidade rápida de diversos dados e exibição:
- Integração da plataforma de aplicativos existente com Big Data Dashboard
- Big Data gestão
- Estudo de caso do Big Data Painel: Tableau e Pentaho
- Use o aplicativo Big Data para enviar serviços baseados em localização em Govt.
- Sistema de rastreamento e gerenciamento
Dia 5: Sessão 1: Como justificar Big Data a implementação de BI dentro de uma organização:
- Definindo ROI para Big Data implementação
- Estudos de caso para economizar tempo do analista na coleta e preparação de dados – aumento no ganho de produtividade
- Estudos de caso de ganho de receita com a redução do custo do banco de dados licenciado
- Ganho de receita de serviços baseados em localização
- Economizando com a prevenção de fraudes
- Uma abordagem de planilha integrada para calcular aprox. despesa vs. ganho/economia de receita da implementação Big Data.
Dia 5: Sessão 2: Procedimento passo a passo para substituir o sistema de dados legado para Big Data Sistema:
- Compreendendo a prática Big Data Roteiro de migração
- Quais são as informações importantes necessárias antes de arquitetar uma implementação Big Data
- Quais são as diferentes formas de calcular volume, velocidade, variedade e veracidade dos dados
- Como estimar o crescimento dos dados
- Estudos de caso
Dia 5: Sessão 4: Revisão de Big Data Fornecedores e revisão de seus produtos. Sessão de perguntas/respostas:
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Sistemas
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Sistemas de dados Hitachi
- Hortonworks
- HP
- IBM
- informática
- Informações
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluções Ópera
- Oracle
- Pentaho
- Plataforma
- Qliktech
- Quântico
- Rackspace
- Análise da Revolução
- Salesforce
- SAP
- SAS Instituto
- Sisense
- Software AG/Terracota
- Automação Soft10
- Splunk
- Sqrrl
- Supermicro
- Tableau Programas
- Teradata
- Pense em grandes análises
- Sistemas de Marca de Maré
- Mineiro da árvore
- VMware (Parte da EMC)
Requisitos
- Conhecimento básico do funcionamento da empresa e dos sistemas de dados do Governo no seu domínio
- Conhecimentos básicos de SQL/Oracle ou de bases de dados relacionais
- Compreensão básica de Statistics (a nível de folha de cálculo)
35 Horas
Declaração de Clientes (1)
A capacidade do formador para alinhar o curso com os requisitos da organização, sem se limitar a ministrar o curso pelo simples facto de o ministrar.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Máquina Traduzida