Big Data Memo

天行健,君子以自强不息;地势坤,君子以厚德载物。

Flask应用


Flask应用


Mahout Demo

下载安装及修改环境配置 # set mahout environment export MAHOUT_HOME=/home/hadoop/mahout export MAHOUT_CONF_DIR=/$MAHOUT_HOME/conf export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH # SET MAHOUT hodoop env ...

30分钟编写一个Flask应用

http://python.jobbole.com/81085/

截至2017中国智能投顾产品总览

Terminology 概念梳理 智能投顾,包含多种概念,主要有数字化资产配置(Digital Asset Allocation)、智能投顾(Robo-advisor)、机器人投资(Robo-advisor)等。 数字化资产配置(Digital Asset Allocation) FINRA官方定义数字化投资(Digital Investment),其中...

Secondary Sort

secondarysort data: 20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56 70 57 70 58 10 55 80 67 90 43 30 44 50 67 50 87 40 77 20 11 10 55 20 84 70 45 90 55 9...

Spark-ML-0501-Clustering-KMeans

k-means、k-means++以及k-means||算法分析   本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml,已经实现了k-means算法以及k-means||算法。 本文首先会介绍这三个算法的原理,然后在了解原理的基础上分析spark中的实现代码。 1 k-means算法原理分析   k-m...

Spark-ML-0502-Clustering-Gaussian mixture

高斯混合模型   现有的高斯模型有单高斯模型(SGM)和高斯混合模型(GMM)两种。从几何上讲,单高斯分布模型在二维空间上近似于椭圆,在三维空间上近似于椭球。 在很多情况下,属于同一类别的样本点并不满足“椭圆”分布的特性,所以我们需要引入混合高斯模型来解决这种情况。 1 单高斯模型   多维变量X服从高斯分布时,它的概率密度函数PDF定义如下:   在上述定义中,x是维...

Spark-ML-05-Clustering

聚类   聚类是一种无监督学习问题,它的目标就是基于相似度将相似的子集聚合在一起。聚类经常用于探索性研究或者作为分层有监督流程的一部分。 spark.mllib包中支持下面的模型。 k-means算法 GMM(高斯混合模型) PIC(快速迭代聚类) LDA(隐式狄利克雷分布) 二分k-means算法 流式k-means算法

Spark-ML-030103-Linear Model-Regression

线性回归   回归问题的条件或者说前提是 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。 1 线性回归的概念   线性回归假设特征和结果都满足线性。即不大于一次方。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示...