Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Programa do Curso
1.1Hadoop Conceitos
1.1.1HDFS
- O design da interface de linha de comando HDFS Hadoop Sistema de arquivos
1.1.2 Clusters
- Anatomia de um cluster Nó Mater / Nó Escravo Nome Nó / Nó de Dados
1.2 Manipulação de Dados
1.2.1MapReduce detalhado
- Fase do mapa Reduzir fase Embaralhar
1.2.2Analytics com redução de mapa
- Agrupar por com MapReduce Distribuições de frequência e classificação com MapReduce Plotar resultados (GNU Plot) Histogramas com MapReduce Gráficos de dispersão com MapReduce Análise de conjuntos de dados complexos Contagem com MapReduce e Combiners Construir relatórios
1.2.3Limpeza de dados
- Limpeza de documentos Pesquisa difusa de strings Vinculação de registros/desduplicação de dados Transformar e classificar datas de eventos Validar confiabilidade da fonte Eliminar valores discrepantes
1.2.4 Extraindo e Transformando Dados
- Transformando logs Usando Apache Pig para filtrar Usando Apache Pig para classificar Usando Apache Pig para sessionar
1.2.5 Junções Avançadas
- Unindo dados no Mapper usando MapReduce Unindo dados usando Apache Pig replicated join Unindo dados classificados usando Apache Pig merge join Unindo dados distorcidos usando Apache Pig skewed join Usando uma junção do lado do mapa no Apache Hive Usando junções externas completas otimizadas no Apache [1 ] Unindo dados usando um armazenamento de chave-valor externo
1.3Técnicas de Diagnóstico e Otimização de Desempenho
- Mapa Investigando picos nos dados de entrada Identificando problemas de distorção de dados no mapa Rendimento da tarefa do mapa Arquivos pequenos Arquivos não divisíveis
Requisitos
Os participantes não são obrigados a ter qualquer competência específica, uma vez que a formação se centra nas competências dos utilizadores finais, tanto para a administração como para a manipulação de dados no Apache Hadoop
21 horas
Declaração de Clientes (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay