Programa do Curso
=====
Dia 01
=====
Visão geral de Big Data Business Inteligência para Análise de Inteligência Criminal
- Estudos de caso da aplicação da lei - Policiamento Preditivo
- Big Data taxa de adoção nas agências de aplicação da lei e como elas estão alinhando suas operações futuras em torno de Big Data Predictive Analytics
- Soluções tecnológicas emergentes, como sensores de tiro, vídeo de vigilância e mídias sociais
- Usando Big Data tecnologia para mitigar a sobrecarga de informações
- Interface Big Data com dados legados
- Compreensão básica de tecnologias habilitadoras em análise preditiva
- Data Integration e visualização do painel
- Gestão de fraude
- Business Regras e detecção de fraude
- Detecção e criação de perfil de ameaças
- Análise de custo-benefício para Big Data implementação
Introdução a Big Data
- Principais características de Big Data - Volume, Variedade, Velocidade e Veracidade.
- Arquitetura MPP (processamento massivamente paralelo)
- Data Warehouses – esquema estático, conjunto de dados em evolução lenta
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Soluções Baseadas – sem condições na estrutura do conjunto de dados.
- Padrão típico: HDFS, MapReduce (crunch), recuperação do HDFS
- Apache Spark para processamento de fluxo
- Lote adequado para análises/não interativas
- Volume: dados de streaming CEP
- Escolhas típicas – produtos CEP (por exemplo, Infostreams, Apama, MarkLogic etc.)
- Menos produção pronta – Storm/S4
- NoSQL Databases – (colunar e valor-chave): Mais adequado como complemento analítico para data warehouse/banco de dados
NoSQL soluções
- Armazenamento KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Loja KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Loja KV (hierárquica) - GT.m, Cache
- Loja KV (encomendada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Accord
- Cache KV - Memcached, Repcached, Coerência, Infinispan, EXtremeScale, JBossCache, Velocidade, Terracoqua
- Loja Tupla - Gigaspaces, Coord, Rio Apache
- Objeto Database - ZopeDB, DB40, Shoal
- Armazenamento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplo armazenamento colunar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de dados: introdução a Data Cleaning questões em Big Data
- RDBMS – estrutura/esquema estático, não promove ambiente ágil e exploratório.
- NoSQL – estrutura semiestruturada, suficiente para armazenar dados sem esquema exato antes de armazenar os dados
- Problemas de limpeza de dados
Hadoop
- Quando selecionar Hadoop?
- ESTRUTURADO - Data warehouses/bancos de dados corporativos podem armazenar dados massivos (a um custo), mas impor estrutura (não é bom para exploração ativa)
- Dados SEMI ESTRUTURADOS – difíceis de realizar utilizando soluções tradicionais (DW/DB)
- Dados de armazenamento = ENORME esforço e estática mesmo após a implementação
- Para variedade e volume de dados, processados em hardware comum – HADOOP
- H/W de commodities necessário para criar um Hadoop Cluster
Introdução à redução de mapa/HDFS
- MapReduce – distribua computação em vários servidores
- HDFS – disponibiliza dados localmente para o processo de computação (com redundância)
- Dados – podem ser não estruturados/sem esquema (ao contrário do RDBMS)
- Responsabilidade do desenvolvedor em dar sentido aos dados
- Programming MapReduce = trabalhando com Java (prós/contras), carregando dados manualmente no HDFS
=====
Dia 02
=====
Big Data Ecossistema – Construindo Big Data ETL (Extrair, Transformar, Carregar) – Quais Big Data Ferramentas usar e quando?
- Hadoop vs. Outras NoSQL soluções
- Para acesso interativo e aleatório aos dados
- Hbase (banco de dados orientado a colunas) em cima de Hadoop
- Acesso aleatório aos dados, mas restrições impostas (máx. 1 PB)
- Não é bom para análises ad-hoc, é bom para registro, contagem e séries temporais
- Sqoop - Importação de bancos de dados para Hive ou HDFS (acesso JDBC/ODBC)
- Flume – Transmita dados (por exemplo, dados de log) para HDFS
Big Data Management Sistema
- Partes móveis, nós de computação iniciam/falham: ZooKeeper - Para serviços de configuração/coordenação/nomeação
- Pipeline/fluxo de trabalho complexo: Oozie – gerencie fluxo de trabalho, dependências, ligação em série
- Implantar, configurar, gerenciamento de cluster, atualizar etc (administrador de sistema): Ambari
- Na nuvem: Whirr
Predictive Analytics - Técnicas Fundamentais e Machine Learning baseadas em Business Inteligência
- Introdução a Machine Learning
- Aprendendo técnicas de classificação
- Predição Bayesiana - preparando um arquivo de treinamento
- Máquina de vetores de suporte
- Álgebra KNN p-Tree e mineração vertical
- Neural Networks
- Big Data problema de grande variável - floresta aleatória (RF)
- Big Data Problema de automação – conjunto multimodelo RF
- Automação através do Soft10-M
- Ferramenta de análise de texto-Treeminer
- Agile aprendendo
- Aprendizagem baseada em agente
- Aprendizagem distribuída
- Introdução às ferramentas de código aberto para análise preditiva: R, Python, Rapidminer, Mahut
Predictive Analytics Ecossistema e sua aplicação em Análise de Inteligência Criminal
- Tecnologia e o processo investigativo
- Análise de insights
- Análise de visualização
- Análise preditiva estruturada
- Análise preditiva não estruturada
- Perfil de ameaça/fraudstar/fornecedor
- Mecanismo de recomendação
- Detecção de padrões
- Descoberta de regras/cenários – falha, fraude, otimização
- Descoberta da causa raiz
- Análise de sentimentos
- Análise de CRM
- Análise de rede
- Análise de texto para obter insights de transcrições, depoimentos de testemunhas, conversas na Internet, etc.
- Revisão assistida por tecnologia
- Análise de fraude
- Análise em tempo real
=====
Dia 03
=====
Análise em tempo real e Scalable Over Hadoop
- Por que algoritmos analíticos comuns falham em Hadoop/HDFS
- Apache Hama- para computação distribuída síncrona em massa
- Apache SPARK - para computação em cluster e análise em tempo real
- CMU Graphics Lab2- Abordagem assíncrona baseada em gráficos para computação distribuída
- KNN p - Abordagem baseada em álgebra do Treeminer para redução do custo de operação de hardware
Ferramentas para descoberta eletrônica e análise forense
- eDiscovery sobre Big Data vs. dados legados – uma comparação de custo e desempenho
- Codificação preditiva e revisão assistida por tecnologia (TAR)
- Demonstração ao vivo do vMiner para entender como o TAR permite uma descoberta mais rápida
- Indexação mais rápida por meio de HDFS – Velocidade dos dados
- PNL (processamento de linguagem natural) – produtos e técnicas de código aberto
- eDiscovery em línguas estrangeiras – tecnologia para processamento de línguas estrangeiras
Big Data BI para Cyber Security – Obtendo uma visão de 360 graus, coleta rápida de dados e identificação de ameaças
- Compreender os fundamentos da análise de segurança – superfície de ataque, configuração incorreta de segurança, defesas de host
- Infraestrutura de rede / Grande datapipe / ETL de resposta para análise em tempo real
- Prescritivo vs preditivo – Baseado em regras fixas vs descoberta automática de regras de ameaças a partir de metadados
Coletando dados díspares para análise de inteligência criminal
- Usando IoT (Internet of Things) como sensores para captura de dados
- Usando imagens de satélite para vigilância doméstica
- Uso de vigilância e dados de imagem para identificação criminal
- Outras tecnologias de coleta de dados – drones, câmeras corporais, sistemas de marcação GPS e tecnologia de imagem térmica
- Combinando recuperação automatizada de dados com dados obtidos de informantes, interrogatórios e pesquisas
- Forecasting atividade criminosa
=====
Dia 04
=====
BI de prevenção de fraude de Big Data em Fraud Analytics
- Classificação básica de Fraud Analytics – análise baseada em regras versus análise preditiva
- Aprendizado de máquina supervisionado versus não supervisionado para detecção de padrões de fraude
- Business à fraude empresarial, fraude em reclamações médicas, fraude em seguros, evasão fiscal e lavagem de dinheiro
Social Media Analytics – Coleta e análise de inteligência
- Como Social Media é usado por criminosos para organizar, recrutar e planejar
- Big Data API ETL para extração de dados de mídia social
- Texto, imagem, metadados e vídeo
- Análise de sentimento do feed de mídia social
- Filtragem contextual e não contextual de feed de mídia social
- Social Media Painel para integração de diversas mídias sociais
- Perfil automatizado de perfil de mídia social
- A demonstração ao vivo de cada análise será fornecida por meio da ferramenta Treeminer
Big Data Análise em processamento de imagens e feeds de vídeo
- Técnicas de armazenamento de imagens em Big Data - Solução de armazenamento para dados que excedem petabytes
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - solução de armazenamento em camadas para dados de grandes imagens
- Fundamentos da análise de imagens
- Reconhecimento de objeto
- Segmentação de imagens
- Rastreamento de movimento
- Reconstrução de imagem 3D
Biométricas, DNA e programas de identificação da próxima geração
- Além da impressão digital e do reconhecimento facial
- Reconhecimento de fala, pressionamento de tecla (analisando o padrão de digitação do usuário) e CODIS (sistema combinado de índice de DNA)
- Além da correspondência de DNA: usando fenotipagem forense de DNA para construir um rosto a partir de amostras de DNA
Big Data Painel para acessibilidade rápida de diversos dados e exibição:
- Integração da plataforma de aplicativos existente com Big Data Dashboard
- Big Data gestão
- Estudo de caso do Big Data Painel: Tableau e Pentaho
- Use o aplicativo Big Data para enviar serviços baseados em localização em Govt.
- Sistema de rastreamento e gerenciamento
=====
Dia 05
=====
Como justificar Big Data a implementação de BI dentro de uma organização:
- Definindo o ROI (Retorno em Investment) para implementação Big Data
- Estudos de caso para economizar tempo do analista na coleta e preparação de dados – aumentando a produtividade
- Ganho de receita devido ao menor custo de licenciamento de banco de dados
- Ganho de receita de serviços baseados em localização
- Economia de custos com a prevenção de fraudes
- Uma abordagem de planilha integrada para calcular despesas aproximadas versus ganho/economia de receita da implementação Big Data.
Procedimento passo a passo para substituir um sistema de dados legado por um sistema Big Data
- Big Data Roteiro de Migração
- Que informações críticas são necessárias antes de arquitetar um sistema Big Data?
- Quais são as diferentes formas de calcular Volume, Velocidade, Variedade e Veracidade dos dados
- Como estimar o crescimento dos dados
- Estudos de caso
Revisão de Big Data Fornecedores e revisão de seus produtos.
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Sistemas
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Sistemas de dados Hitachi
- Hortonworks
- HP
- IBM
- informática
- Informações
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluções Ópera
- Oracle
- Pentaho
- Plataforma
- Qliktech
- Quântico
- Rackspace
- Análise da Revolução
- Salesforce
- SAP
- SAS Instituto
- Sisense
- Software AG/Terracota
- Automação Soft10
- Splunk
- Sqrrl
- Supermicro
- Tableau Programas
- Teradata
- Pense em grandes análises
- Sistemas de Marca de Maré
- Mineiro da árvore
- VMware (Parte da EMC)
Sessão de perguntas/respostas
Requisitos
- Conhecimento dos processos de aplicação da lei e dos sistemas de dados
- Compreensão básica de SQL/Oracle ou base de dados relacional
- Compreensão básica de estatística (a nível de folha de cálculo)
Declaração de Clientes (4)
Explicações claras com bons exemplos para que eu possa relacionar com a minha própria linha de trabalho.
Elaine Vermeulen - Sandoz BV
Curso - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Curso - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Curso - Alteryx for Data Analysis
team work