Big Data Memo

天行健,君子以自强不息;地势坤,君子以厚德载物。

培训虚拟机使用指南

开启虚拟机 确保安装了VMware软件。打开虚拟机后查看IP并更改hosts。注意:请根据本地的IP来更改,查看本地ip方法:ifconfig命令查看。默认NN01为~128;DN01为129;DN02为130。 Last login: Tue Aug 23 18:47:50 2016 from 192.168.71.1 [hadoop@NN01 ~]$ sudo vim /etc/ho...

Hadoop Tutorial ---- Components Required

大数据培训 对象:大数据工程师、数据挖掘工程师、数据分析师、程序员… 学习内容 1 开源框架学习 类别 组件名称 学习等级 掌握程度 组件概述 文件系统 HDFS 一级 熟练 Hadoop分布式文件系统(Hadoop...

LDA

LDA What-is-a-good-explanation-of-Latent-Dirichlet-Allocation

Hadoop Mesos

mesos和yarn区别 mesos和yarn区别 Mesos Getting Started

Hadoop Learn Guide

前言 大数据越来越火,客户要求越来越高。No废话,开始你的大数据之旅,请在不断的旅途当中为自己画饼!本培训主要针对的是有一定编程基础和有一定数据分析基础的同学,感觉有难度的地方请及时提出。 学习路径图 1 了解大数据生态圈及准备你的能力 2 开始你的装机之艰难旅程 3 组件针对性加强训练 4 组件定位与深挖 ...

Hadoop Resource

Apache Apache docs Cloudera Cloudera Engineering Blog Storm 分布式计算 / 实时流计算 / NoSQL存储 (Email: ypf412@163.com, GitHub: https://github.com/ypf412) hortonworks hortonworks公司中文网 THE HDPCD EXAM Ho...

HadoopMapReduce

MapReduce MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat research.google.com/archive/mapreduce.html Download: mapreduce-osdi04.pdf

Hadoop Mahout

开始 Mahout Mahout has prepared a bunch of examples and tutorials for users to quickly learn how to use its machine learning algorithms. Mahout 支持的算法 Mahout 0.12.0 Features by Eng...

大数据名词速览

Hadoop产品名词速览(不断补充中…) Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map...

Hadoop生态圈

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系? 请参照知乎原文,链接