Hadoop Tutorial ---- Components Required

Posted by Big Data Memo on August 17, 2016

大数据培训

对象:大数据工程师、数据挖掘工程师、数据分析师、程序员…

学习内容

  • 1 开源框架学习

类别 组件名称 学习等级 掌握程度 组件概述
文件系统 HDFS 一级 熟练 Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
分布式编程 MapReduce 一级 熟练 提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。
分布式编程 Pig 二级 熟练 Apache Pig是用来处理大规模数据的高级查询语言
分布式编程 Spark 特级 精通 基于内存进行计算的分布式计算框架。
分布式编程 Storm 二级 精通 Apache Storm是一个免费、开源的分布式实时计算系统
分布式编程 Tez 二级 熟练 Tez 是 Apache 最新的支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。
列存 Hbbase 二级 精通 提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。
文档存储 MongoDB 二级 掌握 MongoDB 是一个基于分布式文件存储的数据库,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。
键值存储 Redis 二级 熟练 Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API
数据处理 Hive 特级 精通 建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务。
数据处理 Flume 一级 精通 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
数据处理 Sqoop 二级 熟练 Sqoop是一个数据库导入导出工具,可以将数据从hadoop导入到关系数据库,或从关系数据库将数据导入到hadoop中。
数据处理 KafKa 二级 熟练 一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。
组件服务 zookeeper 二级 熟练 提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。
机器学习 Mahout 二级 熟练 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
系统部署 Ambari 三级 训练 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
系统部署 HUE 三级 了解 Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。
系统部署 Mesos 三级 了解 Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。
  • 2 华为FI 及 Miner 学习

TODO

At Last

Practice makes perfect! Do in action!