大数据培训
对象:大数据工程师、数据挖掘工程师、数据分析师、程序员…
学习内容
- 1 开源框架学习
类别 | 组件名称 | 学习等级 | 掌握程度 | 组件概述 |
文件系统 | HDFS | 一级 | 熟练 | Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。 |
分布式编程 | MapReduce | 一级 | 熟练 | 提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。 |
分布式编程 | Pig | 二级 | 熟练 | Apache Pig是用来处理大规模数据的高级查询语言 |
分布式编程 | Spark | 特级 | 精通 | 基于内存进行计算的分布式计算框架。 |
分布式编程 | Storm | 二级 | 精通 | Apache Storm是一个免费、开源的分布式实时计算系统 |
分布式编程 | Tez | 二级 | 熟练 | Tez 是 Apache 最新的支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。 |
列存 | Hbbase | 二级 | 精通 | 提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。 |
文档存储 | MongoDB | 二级 | 掌握 | MongoDB 是一个基于分布式文件存储的数据库,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 |
键值存储 | Redis | 二级 | 熟练 | Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API |
数据处理 | Hive | 特级 | 精通 | 建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务。 |
数据处理 | Flume | 一级 | 精通 | Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 |
数据处理 | Sqoop | 二级 | 熟练 | Sqoop是一个数据库导入导出工具,可以将数据从hadoop导入到关系数据库,或从关系数据库将数据导入到hadoop中。 |
数据处理 | KafKa | 二级 | 熟练 | 一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。 |
组件服务 | zookeeper | 二级 | 熟练 | 提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。 |
机器学习 | Mahout | 二级 | 熟练 | 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。 |
系统部署 | Ambari | 三级 | 训练 | Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 |
系统部署 | HUE | 三级 | 了解 | Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。 |
系统部署 | Mesos | 三级 | 了解 | Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。 |
- 2 华为FI 及 Miner 学习
TODO
At Last
Practice makes perfect! Do in action!