Big Data Memo

天行健,君子以自强不息;地势坤,君子以厚德载物。

Spark-ML-0206-Kernel density estimation

核密度估计 1 理论分析   核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。假设我们有n个数\(X_{1},X_{2},...,X_{n}\),要计算某个数X的概率密度有多大, 可以通过下面的核密度估计方法估计。 \[f(x) = \frac{1}{nh}\sum_{i=1}^n K(\frac{x - X_i}{h})\]   在上面的式子中,K为核密度函数...

Spark-ML-0204-Hypothesis testing

假设检测   假设检测是统计中有力的工具,它用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。spark.mllib目前支持皮尔森卡方检测。输入属性的类型决定是作拟合优度(goodness of fit)检测还是作独立性检测。 拟合优度检测需要输入数据的类型是vector,独立性检测需要输入数据的类型是Matrix。   spark.mllib也支持输入数据类型为RDD[La...

Spark-ML-0202-Correlations

相关性系数   计算两个数据集的相关性是统计中的常用操作。在MLlib中提供了计算多个数据集两两相关的方法。目前支持的相关性方法有皮尔森(Pearson)相关和斯皮尔曼(Spearman)相关。   Statistics提供方法计算数据集的相关性。根据输入的类型,两个RDD[Double]或者一个RDD[Vector],输出将会是一个Double值或者相关性矩阵。下面是一个应用的例子。 ...

Spark-ML-00

spark机器学习算法研究和源码分析   本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。 本系列文章支持的spark版本 *spark 2.x * * 本系列的目录结构   本系列目录如下: data type(数据...

Lev2 Glossary

A Abandonment option The ability to terminate a project at some future time if the financial results are disappointing. Abnormal earnings See residual income. Abnormal r...

tmp

1 题1 解:(1) 划线法求纯策略纳什均衡 观察,乙的策略‘中’严格小于策略‘右’(\((1,4,6)^T < (2,6,9)^T\)),剔除。 剔除后,甲的策略‘中‘和‘下’严格小于策略’上‘(\((2,3)^T < (4,6)^T\); \((3,2)^T<(4,6)^T\)),剔除。纯策略纳什均衡为(上,左),如下所示: (2) 混合策略纳什均衡 易见,...

DataMing Tools Collected

DataMing Tools Collected KNIME rapidminer 8-open-source-big-data-mining-tools looking-for-data-mining-and-analytics-tools-check-out-these-open-source-options

Python 2 Kafka 2 SparkStreaming

[SparkStreaming 原理综述与监测目录下文件](http://blog.csdn.net/zfszhangyuan/article/details/52522974 原理 Spark Streaming 数据产生与导入相关的内存分析 动态控制消费速率 Spark Streaming Direct Approach (No Receivers) 分析 python as K...

Scala Featured

1 scala中”_“的用法总结 参考链接: what-are-all-the-uses-of-an-underscore-in-scala http://www.slideshare.net/normation/scala-dreaded 6 Expressions import scala._ // Wild card -- all of Scala is importe...

travel site

10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.2–10.8