Programa do Curso

=====
Dia 01
=====
Visão geral de Big Data Business Inteligência para Análise de Inteligência Criminal

  • Estudos de caso da aplicação da lei - Policiamento Preditivo
  • Big Data taxa de adoção nas agências de aplicação da lei e como elas estão alinhando suas operações futuras em torno de Big Data Predictive Analytics
  • Soluções tecnológicas emergentes, como sensores de tiro, vídeo de vigilância e mídias sociais
  • Usando Big Data tecnologia para mitigar a sobrecarga de informações
  • Interface Big Data com dados legados
  • Compreensão básica de tecnologias habilitadoras em análise preditiva
  • Data Integration e visualização do painel
  • Gestão de fraude
  • Business Regras e detecção de fraude
  • Detecção e criação de perfil de ameaças
  • Análise de custo-benefício para Big Data implementação

Introdução a Big Data

  • Principais características de Big Data - Volume, Variedade, Velocidade e Veracidade.
  • Arquitetura MPP (processamento massivamente paralelo)
  • Data Warehouses – esquema estático, conjunto de dados em evolução lenta
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Soluções Baseadas – sem condições na estrutura do conjunto de dados.
  • Padrão típico: HDFS, MapReduce (crunch), recuperação do HDFS
  • Apache Spark para processamento de fluxo
  • Lote adequado para análises/não interativas
  • Volume: dados de streaming CEP
  • Escolhas típicas – produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc.)
  • Menos produção pronta – Storm/S4
  • NoSQL Databases – (colunar e valor-chave): Mais adequado como complemento analítico para data warehouse/banco de dados

NoSQL soluções

  • Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Loja KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Loja KV (hierárquica) - GT.m, Cache
  • Loja KV (encomendada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Accord
  • Cache KV - Memcached, Repcached, Coerência, Infinispan, EXtremeScale, JBossCache, Velocidade, Terracoqua
  • Loja Tupla - Gigaspaces, Coord, Rio Apache
  • Objeto Database - ZopeDB, DB40, Shoal
  • Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplo armazenamento colunar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de dados: introdução a Data Cleaning questões em Big Data

  • RDBMS – estrutura/esquema estático, não promove ambiente ágil e exploratório.
  • NoSQL – estrutura semiestruturada, suficiente para armazenar dados sem esquema exato antes de armazenar os dados
  • Problemas de limpeza de dados

Hadoop

  • Quando selecionar Hadoop?
  • ESTRUTURADO - Data warehouses/bancos de dados corporativos podem armazenar dados massivos (a um custo), mas impor estrutura (não é bom para exploração ativa)
  • Dados SEMI ESTRUTURADOS – difíceis de realizar utilizando soluções tradicionais (DW/DB)
  • Dados de armazenamento = ENORME esforço e estática mesmo após a implementação
  • Para variedade e volume de dados, processados em hardware comum – HADOOP
  • H/W de commodities necessário para criar um Hadoop Cluster

Introdução à redução de mapa/HDFS

  • MapReduce – distribua computação em vários servidores
  • HDFS – disponibiliza dados localmente para o processo de computação (com redundância)
  • Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
  • Responsabilidade do desenvolvedor em dar sentido aos dados
  • Programming MapReduce = trabalhando com Java (prós/contras), carregando dados manualmente no HDFS

=====
Dia 02
=====
Big Data Ecossistema – Construindo Big Data ETL (Extrair, Transformar, Carregar) – Quais Big Data Ferramentas usar e quando?

  • Hadoop vs. Outras NoSQL soluções
  • Para acesso interativo e aleatório aos dados
  • Hbase (banco de dados orientado a colunas) em cima de Hadoop
  • Acesso aleatório aos dados, mas restrições impostas (máx. 1 PB)
  • Não é bom para análises ad-hoc, é bom para registro, contagem e séries temporais
  • Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
  • Flume – Transmita dados (por exemplo, dados de log) para HDFS

Big Data Management Sistema

  • Partes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/nomeação
  • Pipeline/fluxo de trabalho complexo: Oozie – gerencie fluxo de trabalho, dependências, ligação em série
  • Implantar, configurar, gerenciamento de cluster, atualizar etc (administrador de sistema): Ambari
  • Na nuvem: Whirr

Predictive Analytics - Técnicas Fundamentais e Machine Learning baseadas em Business Inteligência

  • Introdução a Machine Learning
  • Aprendendo técnicas de classificação
  • Predição Bayesiana - preparando um arquivo de treinamento
  • Máquina de vetores de suporte
  • Álgebra KNN p-Tree e mineração vertical
  • Neural Networks
  • Big Data problema de grande variável - floresta aleatória (RF)
  • Big Data Problema de automação – conjunto multimodelo RF
  • Automação através do Soft10-M
  • Ferramenta de análise de texto-Treeminer
  • Agile aprendendo
  • Aprendizagem baseada em agente
  • Aprendizagem distribuída
  • Introdução às ferramentas de código aberto para análise preditiva: R, Python, Rapidminer, Mahut

Predictive Analytics Ecossistema e sua aplicação em Análise de Inteligência Criminal

  • Tecnologia e o processo investigativo
  • Análise de insights
  • Análise de visualização
  • Análise preditiva estruturada
  • Análise preditiva não estruturada
  • Perfil de ameaça/fraudstar/fornecedor
  • Mecanismo de recomendação
  • Detecção de padrões
  • Descoberta de regras/cenários – falha, fraude, otimização
  • Descoberta da causa raiz
  • Análise de sentimentos
  • Análise de CRM
  • Análise de rede
  • Análise de texto para obter insights de transcrições, depoimentos de testemunhas, conversas na Internet, etc.
  • Revisão assistida por tecnologia
  • Análise de fraude
  • Análise em tempo real

=====
Dia 03
=====
Análise em tempo real e Scalable Over Hadoop

  • Por que algoritmos analíticos comuns falham em Hadoop/HDFS
  • Apache Hama- para computação distribuída síncrona em massa
  • Apache SPARK - para computação em cluster e análise em tempo real
  • CMU Graphics Lab2- Abordagem assíncrona baseada em gráficos para computação distribuída
  • KNN p - Abordagem baseada em álgebra do Treeminer para redução do custo de operação de hardware

Ferramentas para descoberta eletrônica e análise forense

  • eDiscovery sobre Big Data vs. dados legados – uma comparação de custo e desempenho
  • Codificação preditiva e revisão assistida por tecnologia (TAR)
  • Demonstração ao vivo do vMiner para entender como o TAR permite uma descoberta mais rápida
  • Indexação mais rápida por meio de HDFS – Velocidade dos dados
  • PNL (processamento de linguagem natural) – produtos e técnicas de código aberto
  • eDiscovery em línguas estrangeiras – tecnologia para processamento de línguas estrangeiras

Big Data BI para Cyber Security – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças

  • Compreender os fundamentos da análise de segurança – superfície de ataque, configuração incorreta de segurança, defesas de host
  • Infraestrutura de rede / Grande datapipe / ETL de resposta para análise em tempo real
  • Prescritivo vs preditivo – Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados

Coletando dados díspares para análise de inteligência criminal

  • Usando IoT (Internet of Things) como sensores para captura de dados
  • Usando imagens de satélite para vigilância doméstica
  • Uso de vigilância e dados de imagem para identificação criminal
  • Outras tecnologias de coleta de dados – drones, câmeras corporais, sistemas de marcação GPS e tecnologia de imagem térmica
  • Combinando recuperação automatizada de dados com dados obtidos de informantes, interrogatórios e pesquisas
  • Forecasting atividade criminosa

=====
Dia 04
=====
BI de prevenção de fraude de Big Data em Fraud Analytics

  • Classificação básica de Fraud Analytics – análise baseada em regras versus análise preditiva
  • Aprendizado de máquina supervisionado versus não supervisionado para detecção de padrões de fraude
  • Business à fraude empresarial, fraude em reclamações médicas, fraude em seguros, evasão fiscal e lavagem de dinheiro

Social Media Analytics – Coleta e análise de inteligência

  • Como Social Media é usado por criminosos para organizar, recrutar e planejar
  • Big Data API ETL para extração de dados de mídia social
  • Texto, imagem, metadados e vídeo
  • Análise de sentimento do feed de mídia social
  • Filtragem contextual e não contextual de feed de mídia social
  • Social Media Painel para integração de diversas mídias sociais
  • Perfil automatizado de perfil de mídia social
  • A demonstração ao vivo de cada análise será fornecida por meio da ferramenta Treeminer

Big Data Análise em processamento de imagens e feeds de vídeo

  • Técnicas de armazenamento de imagens em Big Data - Solução de armazenamento para dados que excedem petabytes
  • LTFS (Linear Tape File System) e LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - solução de armazenamento em camadas para dados de grandes imagens
  • Fundamentos da análise de imagens
  • Reconhecimento de objeto
  • Segmentação de imagens
  • Rastreamento de movimento
  • Reconstrução de imagem 3D

Biométricas, DNA e programas de identificação da próxima geração

  • Além da impressão digital e do reconhecimento facial
  • Reconhecimento de fala, pressionamento de tecla (analisando o padrão de digitação do usuário) e CODIS (sistema combinado de índice de DNA)
  • Além da correspondência de DNA: usando fenotipagem forense de DNA para construir um rosto a partir de amostras de DNA

Big Data Painel para acessibilidade rápida de diversos dados e exibição:

  • Integração da plataforma de aplicativos existente com Big Data Dashboard
  • Big Data gestão
  • Estudo de caso do Big Data Painel: Tableau e Pentaho
  • Use o aplicativo Big Data para enviar serviços baseados em localização em Govt.
  • Sistema de rastreamento e gerenciamento

=====
Dia 05
=====
Como justificar Big Data a implementação de BI dentro de uma organização:

  • Definindo o ROI (Retorno em Investment) para implementação Big Data
  • Estudos de caso para economizar tempo do analista na coleta e preparação de dados – aumentando a produtividade
  • Ganho de receita devido ao menor custo de licenciamento de banco de dados
  • Ganho de receita de serviços baseados em localização
  • Economia de custos com a prevenção de fraudes
  • Uma abordagem de planilha integrada para calcular despesas aproximadas versus ganho/economia de receita da implementação Big Data.

Procedimento passo a passo para substituir um sistema de dados legado por um sistema Big Data

  • Big Data Roteiro de Migração
  • Que informações críticas são necessárias antes de arquitetar um sistema Big Data?
  • Quais são as diferentes formas de calcular Volume, Velocidade, Variedade e Veracidade dos dados
  • Como estimar o crescimento dos dados
  • Estudos de caso

Revisão de Big Data Fornecedores e revisão de seus produtos.

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Sistemas
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Sistemas de dados Hitachi
  • Hortonworks
  • HP
  • IBM
  • informática
  • Informações
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluções Ópera
  • Oracle
  • Pentaho
  • Plataforma
  • Qliktech
  • Quântico
  • Rackspace
  • Análise da Revolução
  • Salesforce
  • SAP
  • SAS Instituto
  • Sisense
  • Software AG/Terracota
  • Automação Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Programas
  • Teradata
  • Pense em grandes análises
  • Sistemas de Marca de Maré
  • Mineiro da árvore
  • VMware (Parte da EMC)

Sessão de perguntas/respostas

Requisitos

  • Conhecimento dos processos de aplicação da lei e dos sistemas de dados
  • Compreensão básica de SQL/Oracle ou base de dados relacional
  • Compreensão básica de estatística (a nível de folha de cálculo)
  35 horas
 

Declaração de Clientes (4)

Cursos Relacionados

Categorias Relacionadas