Cursos de Python, Spark, and Hadoop for Big Data
Python é uma linguagem de programação escalável, flexível e amplamente utilizada para a ciência dos dados e a aprendizagem automática. Spark é um mecanismo de processamento de dados usado na consulta, análise e transformação de big data, enquanto Hadoop é uma estrutura de biblioteca de software para armazenamento e processamento de dados em grande escala.
Este treinamento ao vivo conduzido por instrutor (no local ou remoto) é destinado a desenvolvedores que desejam usar e integrar o Spark, Hadoop e Python para processar, analisar e transformar conjuntos de dados grandes e complexos.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para iniciar o processamento de big data com Spark, Hadoop e Python.
- Compreender os recursos, componentes principais e arquitetura do Spark e Hadoop.
- Aprender como integrar Spark, Hadoop e Python para o processamento de big data.
- Explorar as ferramentas do ecossistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Construir sistemas de recomendação de filtragem colaborativa semelhantes a Netflix, YouTube, Amazon, Spotify e Google.
- Usar o Apache Mahout para escalar algoritmos de aprendizado de máquina.
Formato do curso
- Palestra e discussão interactiva.
- Muitos exercícios e prática.
- Implementação prática num ambiente de laboratório ao vivo.
Opções de personalização do curso
- Para solicitar uma formação personalizada para este curso, por favor contacte-nos para combinar.
Programa do Curso
Introdução
- Visão geral das características e da arquitetura do Spark e Hadoop
- Compreender os grandes volumes de dados
- Python noções básicas de programação
Primeiros passos
- Configurar o Python, o Spark e o Hadoop
- Compreender as estruturas de dados em Python
- Compreender a API PySpark
- Compreender o HDFS e o MapReduce
Integrando Spark e Hadoop com Python
- Implementar o Spark RDD em Python
- Processar dados usando MapReduce
- Criando conjuntos de dados distribuídos no HDFS
Machine Learning com Spark MLlib
Processando Big Data com Spark Streaming
Trabalhar com sistemas de recomendação
Trabalhar com Kafka, Sqoop, Kafka e Flume
Apache Mahout com Spark e Hadoop
Solução de problemas
Resumo e próximos passos
Requisitos
- Experiência com Spark e Hadoop
- Python experiência em programação
Público
- Cientistas de dados
- Programadores
Precisa de ajuda para escolher o curso certo?
info@nobleprog.pt ou +351 30 050 9666
Cursos de Python, Spark, and Hadoop for Big Data - Enquiry
Python, Spark, and Hadoop for Big Data - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (3)
O fato de termos conseguido levar conosco a maior parte das informações/apresentações/exercícios do curso, para que possamos revisá-los e talvez refazer o que não entendemos à primeira vez ou melhorar o que já fizemos.
Raul Mihail Rat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Gostei de como conseguiu estabelecer as bases do tópico e avançar para exercícios bastante avançados. Também ofereceu maneiras fáceis de escrever/testar o código.
Ionut Goga - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a cientistas e engenheiros de dados de nível intermediário que desejam usar Go ogle Colab e Apache Spark para processamento e análise de big data.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados de forma eficiente com Apache Spark.
- Visualize big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas em nuvem.
Big Data Analytics in Health
21 HorasA análise de big data envolve o processo de examinar grandes quantidades de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras informações úteis.
A indústria da saúde tem enormes quantidades de dados médicos e clínicos heterogêneos complexos. A aplicação de análise de big data em dados de saúde apresenta um enorme potencial para obter insights para melhorar a prestação de serviços de saúde. No entanto, a enormidade desses conjuntos de dados apresenta grandes desafios em análises e aplicações práticas para um ambiente clínico.
Neste treinamento ao vivo conduzido por instrutor (remoto), os participantes aprenderão como executar a análise de big data na área da saúde enquanto realizam uma série de exercícios práticos de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como o Hadoop MapReduce e o Spark
- Entenda as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar grandes sistemas de dados e algoritmos no contexto de aplicações de saúde
Público
- Desenvolvedores
- Cientistas de dados
Formato do Curso
- Palestra parte, parte discussão, exercícios e prática hands-on pesado.
Nota
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Hadoop and Spark for Administrators
35 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a administradores de sistema que desejam aprender como configurar, implantar e gerenciar clusters Hadoop em sua organização.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Hadoop.
- Compreender os quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o HDFS (Hadoop Distributed File System) para dimensionar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações do Spark no local.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
Curso Análise de dados Hive/HiveQL
7 HorasEste curso cobre o básico sobre como utilizar a linguagem Hive SQL, para todas aquelas pessoas que querem extraír dados do Hive. O objetivo deste curso é proporcionar todas as ferramentas necessárias para que os participantes possam analizar os dados de forma clara e precisa.
Impala e a Inteligencia de Negócios
21 HorasO Cloudera Impala é um query engine SQL MPP de código aberto feito para clusters Apache Hadoop.
Ele permite aos usuarios a abertura de queries SQL de latencia baixa para todos os dados guardados no Hadoop Distributed File System e Apache Hbase sem requerir movimento de dados ou transformacao.
Este curso vai dirigido a analistas de sistemas e cientístas de dados.
A Practical Introduction to Stream Processing
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto), os participantes aprenderão como configurar e integrar diferentes estruturas Stream Processing com sistemas de armazenamento de big data existentes e aplicativos de software relacionados e microsserviços.
No final desta formação, os participantes serão capazes de
- Instalar e configurar diferentes Stream Processing frameworks, como Spark Streaming e Kafka Streaming.
- Compreender e selecionar a estrutura mais apropriada para o trabalho.
- Processar dados de forma contínua, simultânea e de forma registo a registo.
- Integrar Stream Processing soluções com bancos de dados existentes, data warehouses, data lakes, etc.
- Integrar a biblioteca de processamento de fluxo mais adequada com aplicativos corporativos e microsserviços.
SMACK Stack for Data Science
14 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a cientistas de dados que desejam usar a pilha SMACK para construir plataformas de processamento de dados para soluções de big data.
No final desta formação, os participantes serão capazes de
- Implementar uma arquitetura de pipeline de dados para processar big data.
- Desenvolver uma infraestrutura de cluster com Apache Mesos e Docker.
- Analisar dados com Spark e Scala.
- Gerenciar dados não estruturados com o Apache Cassandra.
Apache Spark Fundamentals
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a engenheiros que desejam configurar e implantar o sistema Apache Spark para processar grandes quantidades de dados.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Spark.
- Processe e analise rapidamente conjuntos de dados muito grandes.
- Compreender a diferença entre o Apache Spark e o Hadoop MapReduce e quando usar qual deles.
- Integrar o Apache Spark com outras ferramentas de aprendizado de máquina.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark