Cursos de Spark para Developers
OBJETIVO:
Este curso apresentará o Apache Spark . Os alunos aprenderão como o Spark se encaixa no ecossistema de Big Data e como usar o Spark para análise de dados. O curso abrange o shell Shell para análise interativa de dados, internos do Spark, APIs do Spark, Spark SQL , streaming do Spark e aprendizado de máquina e graphX.
PÚBLICO :
Desenvolvedores / analistas de dados
Programa do Curso
- Scala primer Uma rápida introdução ao Scala Labs: Conhecendo o Scala Spark Noções básicas e histórico Conceitos e arquitetura do Spark e Hadoop Spark Eco system do Spark (core, spark sql, mlib, streaming) Labs: Instalando e executando o Spark Primeiramente veja o Spark Executando o Spark em modo local Spark web UI Spark shell Analisando conjunto de dados – parte 1 Inspecionando RDDs Laboratórios: exploração de Spark shell RDDs Conceitos de RDDs Partições RDD Operações/transformações Tipos de RDD Par chave-valor RDDs MapReduce em RDD Armazenamento em cache e persistência Laboratórios: criando e inspecionando RDDs; Armazenamento em cache de RDDs Programação da API Spark Introdução à API Spark / API RDD Envio do primeiro programa para o Spark Depuração/registro de propriedades de configuração Laboratórios: Programação na API Spark, envio de trabalhos Suporte ao Spark SQL SQL em Spark Dataframes Definição de tabelas e importação de conjuntos de dados Consulta de dados frames usando SQL Formatos de armazenamento: JSON/Parquet Labs: Criação e consulta de frames de dados; avaliando formatos de dados MLlib Introdução ao MLlib Algoritmos MLlib Laboratórios: Escrevendo aplicativos MLib Visão geral da biblioteca GraphX GraphX APIs GraphX Laboratórios: Processando dados gráficos usando Spark Spark Streaming Visão geral do streaming Avaliando plataformas de streaming Operações de streaming Operações de janela deslizante Laboratórios: Escrevendo aplicativos de streaming spark Spark e Hadoop Introdução ao Hadoop ( HDFS / YARN) Arquitetura Hadoop + Spark Executando Spark no Hadoop YARN Processando arquivos HDFS usando Spark Spark Desempenho e ajuste Variáveis de transmissão Acumuladores Gerenciamento de memória e cache Operações Spark Implantando Spark em produção Exemplos de modelos de implantação Configurações Monitoramento Solução de problemas
Requisitos
PRÉ-REQUISITOS
familiaridade com as linguagens Java / Scala / Python (os nossos laboratórios em Scala e Python) conhecimentos básicos do ambiente de desenvolvimento Linux (navegação na linha de comandos / edição de ficheiros usando VI ou nano)
Precisa de ajuda para escolher o curso certo?
info@nobleprog.pt ou +351 30 050 9666
Cursos de Spark para Developers - Enquiry
Spark para Developers - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (6)
Fazer exercícios similares de maneiras diferentes realmente ajuda a entender o que cada componente (Hadoop/Spark, standalone/cluster) pode fazer individualmente e em conjunto. Isso me deu ideias sobre como eu deveria testar minha aplicação na minha máquina local quando estou desenvolvendo versus quando ela é implantada em um cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Máquina Traduzida
Ajay foi muito amigável, ajudativo e também conhecedor sobre o tópico que estava discutindo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Máquina Traduzida
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Máquina Traduzida
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Máquina Traduzida
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Máquina Traduzida
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a cientistas e engenheiros de dados de nível intermediário que desejam usar Go ogle Colab e Apache Spark para processamento e análise de big data.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados de forma eficiente com Apache Spark.
- Visualize big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas em nuvem.
Big Data Analytics in Health
21 HorasA análise de big data envolve o processo de examinar grandes quantidades de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras informações úteis.
A indústria da saúde tem enormes quantidades de dados médicos e clínicos heterogêneos complexos. A aplicação de análise de big data em dados de saúde apresenta um enorme potencial para obter insights para melhorar a prestação de serviços de saúde. No entanto, a enormidade desses conjuntos de dados apresenta grandes desafios em análises e aplicações práticas para um ambiente clínico.
Neste treinamento ao vivo conduzido por instrutor (remoto), os participantes aprenderão como executar a análise de big data na área da saúde enquanto realizam uma série de exercícios práticos de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como o Hadoop MapReduce e o Spark
- Entenda as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar grandes sistemas de dados e algoritmos no contexto de aplicações de saúde
Público
- Desenvolvedores
- Cientistas de dados
Formato do Curso
- Palestra parte, parte discussão, exercícios e prática hands-on pesado.
Nota
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hadoop and Spark for Administrators
35 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a administradores de sistema que desejam aprender como configurar, implantar e gerenciar clusters Hadoop em sua organização.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Hadoop.
- Compreender os quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o HDFS (Hadoop Distributed File System) para dimensionar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações do Spark no local.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
A Practical Introduction to Stream Processing
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto), os participantes aprenderão como configurar e integrar diferentes estruturas Stream Processing com sistemas de armazenamento de big data existentes e aplicativos de software relacionados e microsserviços.
No final desta formação, os participantes serão capazes de
- Instalar e configurar diferentes Stream Processing frameworks, como Spark Streaming e Kafka Streaming.
- Compreender e selecionar a estrutura mais apropriada para o trabalho.
- Processar dados de forma contínua, simultânea e de forma registo a registo.
- Integrar Stream Processing soluções com bancos de dados existentes, data warehouses, data lakes, etc.
- Integrar a biblioteca de processamento de fluxo mais adequada com aplicativos corporativos e microsserviços.
SMACK Stack for Data Science
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a cientistas de dados que desejam usar a pilha SMACK para construir plataformas de processamento de dados para soluções de big data.
No final desta formação, os participantes serão capazes de
- Implementar uma arquitetura de pipeline de dados para processar big data.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Analisar dados com Spark e Scala.
- Gerenciar dados não estruturados com o Apache Cassandra.
Apache Spark Fundamentals
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a engenheiros que desejam configurar e implantar o sistema Apache Spark para processar grandes quantidades de dados.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Spark.
- Processe e analise rapidamente conjuntos de dados muito grandes.
- Compreender a diferença entre o Apache Spark e o Hadoop MapReduce e quando usar qual deles.
- Integrar o Apache Spark com outras ferramentas de aprendizado de máquina.
Administration of Apache Spark
35 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a administradores de sistema de nível iniciante a intermediário que desejam implantar, manter e otimizar clusters Spark.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Spark em vários ambientes.
- Gerenciar recursos de cluster e monitorar aplicativos Spark.
- Otimizar o desempenho dos clusters do Spark.
- Implementar medidas de segurança e garantir alta disponibilidade.
- Depurar e solucionar problemas comuns do Spark.
Apache Spark in the Cloud
21 HorasA curva de aprendizado do Apache Spark está aumentando lentamente no início, e é preciso muito esforço para obter o primeiro retorno. Este curso tem como objetivo pular a primeira parte difícil. Depois de fazer este curso, os participantes entenderão o básico do Apache Spark , diferenciarão claramente o RDD do DataFrame, aprenderão as APIs Python e Scala , entenderão os executores e as tarefas, etc. implantação na nuvem, Databricks e AWS. Os alunos também entenderão as diferenças entre o AWS EMR e o AWS Glue, um dos últimos serviços Spark da AWS.
PÚBLICO:
Engenheiro de dados, DevOps , cientista de dados
Scaling Data Pipelines with Spark NLP
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a cientistas de dados e desenvolvedores que desejam usar Spark NLP, construído em cima de Apache Spark, para desenvolver, implementar e dimensionar modelos e pipelines de processamento de texto em linguagem natural.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente de desenvolvimento necessário para começar a construir pipelines de PNL com Spark NLP.
- Compreender os recursos, a arquitetura e os benefícios do uso de Spark NLP.
- Utilizar os modelos pré-treinados disponíveis em Spark NLP para implementar o processamento de texto.
- Aprender a construir, treinar e escalar modelos de Spark NLP para projectos de nível de produção.
- Aplicar classificação, inferência e análise de sentimentos em casos de uso real (dados clínicos, insights sobre o comportamento do cliente, etc.).
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark