Big Data Memo

天行健,君子以自强不息;地势坤,君子以厚德载物。

词根D

d 前缀:右或顺时针方向.后缀:构成某些动词的过去式等 D-glucose(n. 葡萄糖) dactyl n.强弱格,长短格; 手指【词根】手指 pterodactyl(n. [古生] 翼手龙) dai 词根:日,天 daily(adj. 日常的;每日的) dain 词根:有价值的 disdain(vt. 鄙弃) dam / dAm/n.水坝,水堤;障碍物。词根:统治,家,...

词根C

cab / kAb/n.出租马车、汽车。词根:头 captain(n. 陆军上尉; 空军上尉; 海军上校; 船长; 首领) cac 词根:恶 cacodemon(n. 恶魔) caco 【前缀】坏的;不好的 cacophony(n 刺耳的声音(caco刺耳,坏+phony)) cad / kAd/ n. 卑鄙的男人, 下流人, 无赖【词根】落下 de...

词根B

bac n.用绳子拖的平底渡船【词根】后面 back(n. 后面;背部;靠背) bacteri 词根:细菌 bacterial(adj. [微] 细菌的) badin 词根:jest(说笑) badinage(n. 开玩笑;嘲弄,揶揄) bak 词根:热 bake(v. 烘, 烤; 烧硬; 烘干) bal 词根:胀满,包裹,球 bald (秃的,露...

词根A

a 一【前缀】用于加强语气,不【后缀】表示抽象名词 atom(n 原子(a不+tom=不能在切割的小东西=原子)) ab prep. 从, 自【前缀】 表示“偏离,脱离或离开”之义 abuse(滥用(ab+use用=用坏=滥用)) ability / E5biliti/ n.能力;才能【后缀】表示抽象名词 probability(n.可能性;概率) abl 词...

推荐系统中的评测指标

\[\textrm{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}\] from sklearn.metrics import mean_squared_error RMSE = mean_squared_error(y, y_pred)**0.5 \[\begin{bmatrix}1 & 4 &...

推荐系统中的相似度计算方法总结

1 相似度计算方法总结 相似度的计算是推荐系统非常重要的环节,包括:用户与用户之间的相似度,物品与物品之间的相似度或者用户与物品的相关性。 下面以在协同过滤中计算两个用户的相似度来介绍几种常用的相似度计算方法。其中有些方法只适用于协同过滤,有些适应于更多其他推荐方法。 1)共同邻居。直接计算两个用户的交集 \[Similarity_{u,v} = \Gamma(u)\cap\Gamm...

Spark-ML-04-collaborative-filtering

1 推荐算法概述 需求背景: 上图所示为用户评分矩阵,其中用户评分为1-5,?所示为需要估算的用户评分。如果能够快速估算出用户的评分那么就可以对用户进行推荐了,估计的方法非常多,以下为常用的推荐算法概述。 本章节主要介绍CF中ALS算法。 2 什么是ALS ALS是交替最小二乘(alternating least squares)的简称。在机器学习中,ALS特指使用交替最小二乘...

Spark-ML-0203-Stratified sampling

分层取样   先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本的统计学计算方法叫做分层抽样。在spark.mllib中,用key来分层。   与存在于spark.mllib中的其它统计函数不同,分层采样方法sampleByKey和sampleByKeyExact可以在key-value对的RDD上执行。在分层采样中,可以认为key是一个标签,...

Spark-ML-0201-Summary statistics

概括统计   MLlib支持RDD[Vector]列的概括统计,它通过调用Statistics的colStats方法实现。colStats返回一个MultivariateStatisticalSummary对象,这个对象包含列式的最大值、最小值、均值、方差等等。 下面是一个应用例子: import org.apache.spark.mllib.linalg.Vector import o...

Spark-ML-0205-Random data generation

随机数生成   随机数生成在随机算法、性能测试中非常有用,spark.mllib支持生成随机的RDD,RDD的独立同分布(iid)的值来自于给定的分布:均匀分布、标准正太分布、泊松分布。   RandomRDDs提供工厂方法生成随机的双精度RDD或者向量RDD。下面的例子生成了一个随机的双精度RDD,它的值来自于标准的正太分布N(0,1)。 import org.apache.spar...