Cursos de Big Data & Database Systems Fundamentals
O curso faz parte do conjunto de habilidades do Data Scientist (Domínio: Dados e Tecnologia).
Programa do Curso
Conceitos de armazenamento de dados
- O que é Data Ware House?
- Diferença entre OLTP e alojamento de data ware
- Aquisição de dados
- Extração de dados
- Transformação de dados.
- Carregamento de dados
- Datamarts
- Data Mart Dependente vs Independente
- Projeto de banco de dados
Conceitos de teste ETL:
- Introdução.
- Ciclo de vida de desenvolvimento de software.
- Metodologias de teste.
- Processo de fluxo de trabalho de teste de ETL.
- Responsabilidades de teste de ETL no estágio de dados.
Fundamentos de big data
- Big Data e seu papel no mundo corporativo
- As fases de desenvolvimento de uma Big Data estratégia dentro de uma corporação
- Explique a lógica subjacente a uma abordagem holística para Big Data
- Componentes necessários em uma plataforma Big Data
- Solução de armazenamento de big data
- Limites das tecnologias tradicionais
- Visão geral dos tipos de banco de dados
NoSQL Databases
Hadoop
Redução de mapa
Apache Spark
Precisa de ajuda para escolher o curso certo?
Cursos de Big Data & Database Systems Fundamentals - Enquiry
Big Data & Database Systems Fundamentals - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (5)
Muitos exemplos práticos, diferentes formas de abordar o mesmo problema e, por vezes, truques não tão óbvios para melhorar a solução atual
Rafal - Nordea
Curso - Apache Spark MLlib
Máquina Traduzida
como o instrutor demonstra seu conhecimento sobre o assunto que está ensinando
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Curso - Data Vault: Building a Scalable Data Warehouse
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam é um modelo de programação unificado e de código aberto para definir e executar pipelines de processamento de dados paralelos. O seu poder reside na sua capacidade de executar pipelines em lote e em fluxo contínuo, sendo a execução efectuada por um dos back-ends de processamento distribuído suportados pelo Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow. A solução Apache Beam é útil para tarefas de ETL (Extrair, Transformar e Carregar), como mover dados entre diferentes mídias de armazenamento e fontes de dados, transformar dados em um formato mais desejável e carregar dados em um novo sistema.
Neste treinamento ao vivo conduzido por instrutor (no local ou remoto), os participantes aprenderão como implementar os SDKs Apache Beam em um aplicativo Java ou Python que define um pipeline de processamento de dados para decompor um grande conjunto de dados em pedaços menores para processamento paralelo e independente.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Beam.
- Utilizar um único modelo de programação para efetuar o processamento em lote e em fluxo a partir da sua aplicação Java ou Python.
- Executar pipelines em vários ambientes.
Formato do curso
- Parte palestra, parte discussão, exercícios e muita prática
Nota
- Este curso estará disponível Scala no futuro. Por favor, contacte-nos para organizar.
NoSQL Database with Microsoft Azure Cosmos DB
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a administradores de banco de dados ou desenvolvedores que desejam usar Microsoft Azure Cosmos DB para desenvolver e gerenciar aplicativos altamente responsivos e de baixa latência.
No final desta formação, os participantes serão capazes de
- Provisione os recursos necessários do Cosmos DB para começar a criar bancos de dados e aplicativos.
- Dimensione o desempenho e o armazenamento de aplicativos utilizando APIs no Cosmos DB.
- Gerenciar operações de banco de dados e reduzir custos otimizando os recursos do Cosmos DB.
Data Vault: Building a Scalable Data Warehouse
28 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão como construir um Data Vault.
Ao final deste treinamento, os participantes serão capazes de:
- Entenda os conceitos de arquitetura e design por trás do Data Vault 2.0 e sua interação com Big Data, NoSQL e AI.
- Use técnicas de abóbada de dados para permitir a auditoria, o rastreamento e a inspeção de dados históricos em um data warehouse.
- Desenvolver um processo ETL (Extrair, Transformar, Carregar) consistente e repetível.
- Criar e implementar armazéns altamente escaláveis e repetíveis.
Apache Flink Fundamentals
28 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) apresenta os princípios e abordagens por trás do fluxo distribuído e do processamento de dados em lote, e orienta os participantes na criação de um aplicativo de streaming de dados em tempo real em Apache Flink.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente para o desenvolvimento de aplicativos de análise de dados.
- Entender como funciona a biblioteca de processamento de gráficos do Apache Flink (Gelly).
- Empacotar, executar e monitorar aplicativos de streaming de dados baseados em Flink, tolerantes a falhas.
- Gerenciar diversas cargas de trabalho.
- Realizar análises avançadas.
- Configurar um cluster Flink de vários nós.
- Medir e otimizar o desempenho.
- Integrar o Flink com diferentes sistemas Big Data.
- Comparar os recursos do Flink com os de outros frameworks de processamento de big data.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
Impala e a Inteligencia de Negócios
21 HorasO Cloudera Impala é um query engine SQL MPP de código aberto feito para clusters Apache Hadoop.
Ele permite aos usuarios a abertura de queries SQL de latencia baixa para todos os dados guardados no Hadoop Distributed File System e Apache Hbase sem requerir movimento de dados ou transformacao.
Este curso vai dirigido a analistas de sistemas e cientístas de dados.
Confluent KSQL
7 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a desenvolvedores que desejam implementar o processamento de fluxo Apache Kafka sem escrever código.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Confluent KSQL.
- Configurar um pipeline de processamento de fluxo usando apenas comandos SQL (sem codificação Java ou Python).
- Realizar filtragem de dados, transformações, agregações, junções, janelamento e sessionização inteiramente em SQL.
- Conceber e implementar consultas interactivas e contínuas para ETL de fluxo contínuo e análise em tempo real.
Apache NiFi for Administrators
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto), os participantes aprenderão como implantar e gerenciar Apache NiFi em um ambiente de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apachi NiFi.
- Fonte, transformar e gerenciar dados de fontes de dados díspares e distribuídas, incluindo bancos de dados e grandes lagos de dados.
- Automatizar fluxos de dados.
- Habilitar a análise de streaming.
- Aplicar várias abordagens para a ingestão de dados.
- Transformar Big Data em informações comerciais.
Apache NiFi for Developers
7 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Spark Streaming with Python and Kafka
7 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a engenheiros de dados, cientistas de dados e programadores que desejam usar os recursos Spark Streaming no processamento e análise de dados em tempo real.
No final deste treinamento, os participantes poderão usar Spark Streaming para processar fluxos de dados ao vivo para uso em bancos de dados, sistemas de arquivos e painéis ao vivo.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark