Big Data 大数据

Hadoop Tutorial ---- Components Required

Posted by Big Data Memo on August 17, 2016

大数据培训

对象：大数据工程师、数据挖掘工程师、数据分析师、程序员…

学习内容

1 开源框架学习

类别	组件名称	学习等级	掌握程度	组件概述
文件系统	HDFS	一级	熟练	Hadoop分布式文件系统（Hadoop Distributed File System），提供高吞吐量的数据访问，适合大规模数据集方面的应用。
分布式编程	MapReduce	一级	熟练	提供快速并行处理大量数据的能力，是一种分布式数据处理模式和执行环境。
分布式编程	Pig	二级	熟练	Apache Pig是用来处理大规模数据的高级查询语言
分布式编程	Spark	特级	精通	基于内存进行计算的分布式计算框架。
分布式编程	Storm	二级	精通	Apache Storm是一个免费、开源的分布式实时计算系统
分布式编程	Tez	二级	熟练	Tez 是 Apache 最新的支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。
列存	Hbbase	二级	精通	提供海量数据存储功能，是一种构建在HDFS之上的分布式、面向列的存储系统。
文档存储	MongoDB	二级	掌握	MongoDB 是一个基于分布式文件存储的数据库，由C++语言编写，旨在为WEB应用提供可扩展的高性能数据存储解决方案。
键值存储	Redis	二级	熟练	Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API
数据处理	Hive	特级	精通	建立在Hadoop基础上的开源的数据仓库，提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务。
数据处理	Flume	一级	精通	Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
数据处理	Sqoop	二级	熟练	Sqoop是一个数据库导入导出工具，可以将数据从hadoop导入到关系数据库，或从关系数据库将数据导入到hadoop中。
数据处理	KafKa	二级	熟练	一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。
组件服务	zookeeper	二级	熟练	提供分布式、高可用性的协调服务能力。帮助系统避免单点故障，从而建立可靠的应用程序。
机器学习	Mahout	二级	熟练	提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。
系统部署	Ambari	三级	训练	Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
系统部署	HUE	三级	了解	Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。
系统部署	Mesos	三级	了解	Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。

2 华为FI 及 Miner 学习

TODO

At Last

Practice makes perfect! Do in action!