Cursos de Advanced Hadoop for Developers
O Apache Hadoop é um dos frameworks mais populares para o processamento de Big Data em clusters de servidores. Este curso aborda o gerenciamento de dados em HDFS, Pig avançado, Hive e HBase. Essas técnicas avançadas de programação serão benéficas para desenvolvedores Hadoop experientes.
Público-alvo: programadores
Duração: três dias
Formato: palestras (50%) e laboratórios práticos (50%).
Programa do Curso
Secção 1: Data Management no HDFS
- Vários formatos de dados (JSON / Avro / Parquet)
- Esquemas de compressão
- Mascaramento de dados
- Laboratórios: Analisando diferentes formatos de dados; permitindo a compressão
Secção 2: Pig avançado
- Funções definidas pelo utilizador
- Introdução às bibliotecas Pig (ElephantBird / Data-Fu)
- Carregando dados estruturados complexos usando Pig
- Ajuste do Pig
- Laboratórios: scripting pig avançado, análise de tipos de dados complexos
Secção 3 : Avançado Hive
- Funções definidas pelo utilizador
- Tabelas comprimidas
- Hive Ajuste de desempenho
- Laboratórios: criando tabelas comprimidas, avaliando formatos de tabela e configuração
Secção 4 : HBase avançado
- Modelagem avançada de esquemas
- Compressão
- Ingestão de dados em massa
- Comparação entre tabela ampla e tabela alta
- HBase e Pig
- HBase e Hive
- Ajuste de desempenho do HBase
- Laboratórios: afinação do HBase; acesso aos dados do HBase a partir do Pig & Hive; utilização do Phoenix para modelação de dados
Requisitos
- à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
- facilidade de utilização do ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)
- um conhecimento prático de Hadoop.
Ambiente de laboratório
Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty )
- um browser para aceder ao cluster. Recomendamos o browser Firefox
Precisa de ajuda para escolher o curso certo?
info@nobleprog.pt ou +351 30 050 9666
Cursos de Advanced Hadoop for Developers - Enquiry
Advanced Hadoop for Developers - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
coisas práticas de fazer, além da teoria que foi bem explicada pelo Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Treinamento de Administrador para Apache Hadoop
35 HorasPúblico-alvo:
O curso destina-se a especialistas em TI que procuram uma solução para armazenar e processar grandes conjuntos de dados num ambiente de sistema distribuído
Goal:
Conhecimentos profundos sobre Hadoop administração de clusters.
Big Data Analytics in Health
21 HorasA análise de big data envolve o processo de examinar grandes quantidades de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras informações úteis.
A indústria da saúde tem enormes quantidades de dados médicos e clínicos heterogêneos complexos. A aplicação de análise de big data em dados de saúde apresenta um enorme potencial para obter insights para melhorar a prestação de serviços de saúde. No entanto, a enormidade desses conjuntos de dados apresenta grandes desafios em análises e aplicações práticas para um ambiente clínico.
Neste treinamento ao vivo conduzido por instrutor (remoto), os participantes aprenderão como executar a análise de big data na área da saúde enquanto realizam uma série de exercícios práticos de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como o Hadoop MapReduce e o Spark
- Entenda as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar grandes sistemas de dados e algoritmos no contexto de aplicações de saúde
Público
- Desenvolvedores
- Cientistas de dados
Formato do Curso
- Palestra parte, parte discussão, exercícios e prática hands-on pesado.
Nota
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Administração Hadoop
21 HorasEste curso é dedicado à especialistas TI que buscam soluções para guardas e processar grandes sets de dados num ambiente de sistema distribuido.
Objetivo de cursio: Conseguir conhecimento sobre Hadoop cluster administration.
Objetivo do curso:
Obter conhecimentos sobre Hadoop administração de clusters
Hadoop For Administrators
21 HorasO Apache Hadoop é a estrutura mais popular para o processamento de Big Data em clusters de servidores. Neste curso de três (opcionalmente, quatro) dias, os participantes aprenderão sobre os benefícios comerciais e casos de uso para Hadoop e seu ecossistema, como planejar a implantação e o crescimento do cluster, como instalar, manter, monitorar, solucionar problemas e otimizar Hadoop. Eles também praticarão o carregamento de dados em massa do cluster, familiarizar-se-ão com várias distribuições do Hadoop e praticarão a instalação e o gerenciamento das ferramentas do ecossistema do Hadoop. O curso termina com a discussão sobre a segurança do cluster com Kerberos.
"Os materiais foram muito bem preparados e abordados de forma completa. O laboratório foi muito útil e bem organizado"
- Andrew Nguyen, Engenheiro de integração principal de DW, Microsoft Online Advertising
Público
Hadoop administradores
Formato
Palestras e laboratórios práticos, saldo aproximado de 60% de palestras e 40% de laboratórios.
Hadoop for Developers (4 days)
28 HorasO Apache Hadoop é a estrutura mais popular para o processamento Big Data em clusters de servidores. Este curso apresentará ao programador o ecossistema de vários componentes (HDFS, MapReduce, Pig, Hive e HBase) Hadoop.
Administração Hadoop no MapR
28 HorasPúblico:
Este curso tem como objetivo desmistificar a tecnologia big data/hadoop e mostrar que não é difícil de compreender.
Hadoop and Spark for Administrators
35 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (online ou no local) é destinado a administradores de sistema que desejam aprender como configurar, implantar e gerenciar clusters Hadoop em sua organização.
No final desta formação, os participantes serão capazes de
- Instalar e configurar o Apache Hadoop.
- Compreender os quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o HDFS (Hadoop Distributed File System) para dimensionar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações do Spark no local.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
HBase for Developers
21 HorasEste curso introduz HBase, e é dirigido a todos aqueles desenvolvedores que utilizarão o HBase para desenvolver aplicações, e administradores que vao manejar clusters HBase.
Vamos a guiar um desenvolvedor através da arquitetura HBase e modelagem de dados e desenvolvimento de aplicações em HBase. Também vamos discutir utilizando MapReduce com HBase, e alguns tópicos administrativos.
Duração : 3 dias
Público - alvo : desenvolvedores e administradores
Hortonworks Data Platform (HDP) for Administrators
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) apresenta Hortonworks Data Platform (HDP) e orienta os participantes na implantação da solução Spark + Hadoop.
Ao final deste treinamento, os participantes serão capazes de:
- Usar o Hortonworks para executar Hadoop de forma confiável em grande escala.
- Unificar os recursos de segurança, governança e operações do Hadoop com os fluxos de trabalho analíticos ágeis do Spark.
- Use a Hortonworks para investigar, validar, certificar e dar suporte a cada um dos componentes de um projeto Spark.
- Processar diferentes tipos de dados, incluindo dados estruturados, não estruturados, em movimento e em repouso.
Curso Análise de dados Hive/HiveQL
7 HorasEste curso cobre o básico sobre como utilizar a linguagem Hive SQL, para todas aquelas pessoas que querem extraír dados do Hive. O objetivo deste curso é proporcionar todas as ferramentas necessárias para que os participantes possam analizar os dados de forma clara e precisa.
Impala e a Inteligencia de Negócios
21 HorasO Cloudera Impala é um query engine SQL MPP de código aberto feito para clusters Apache Hadoop.
Ele permite aos usuarios a abertura de queries SQL de latencia baixa para todos os dados guardados no Hadoop Distributed File System e Apache Hbase sem requerir movimento de dados ou transformacao.
Este curso vai dirigido a analistas de sistemas e cientístas de dados.
Apache NiFi for Administrators
21 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto), os participantes aprenderão como implantar e gerenciar Apache NiFi em um ambiente de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apachi NiFi.
- Fonte, transformar e gerenciar dados de fontes de dados díspares e distribuídas, incluindo bancos de dados e grandes lagos de dados.
- Automatizar fluxos de dados.
- Habilitar a análise de streaming.
- Aplicar várias abordagens para a ingestão de dados.
- Transformar Big Data em informações comerciais.
Apache NiFi for Developers
7 HorasNeste treinamento ao vivo conduzido por instrutor em Portugal, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
Python, Spark, and Hadoop for Big Data
21 HorasEste treinamento ao vivo conduzido por instrutor em Portugal (no local ou remoto) é destinado a desenvolvedores que desejam usar e integrar o Spark, Hadoop e Python para processar, analisar e transformar conjuntos de dados grandes e complexos.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para iniciar o processamento de big data com Spark, Hadoop e Python.
- Compreender os recursos, componentes principais e arquitetura do Spark e Hadoop.
- Aprender como integrar Spark, Hadoop e Python para o processamento de big data.
- Explorar as ferramentas do ecossistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Construir sistemas de recomendação de filtragem colaborativa semelhantes a Netflix, YouTube, Amazon, Spotify e Google.
- Utilizar o Apache Mahout para escalar algoritmos de aprendizagem automática.