Big Data Memo

天行健,君子以自强不息;地势坤,君子以厚德载物。

Spark-ML-030101-Linear Model-LSVM

线性支持向量机 1 介绍   线性支持向量机是一个用于大规模分类任务的标准方法。它的目标函数线性模型中的公式(1)。它的损失函数是海格损失,如下所示   默认情况下,线性支持向量机训练时使用L2正则化。线性支持向量机输出一个SVM模型。给定一个新的数据点x,模型通过w^Tx的值预测,当这个值大于0时,输出为正,否则输出为负。   线性支持向量机并不需要核函数,要详细了解支持向量机...

Spark-ML-030102-Linear Model-LR

逻辑回归 1 二元逻辑回归   回归是一种很容易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病, 其中的望、闻、问、切就是获取的自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。最简单的回归是线性回归,但是线性回归的鲁棒性很差。   逻辑回归是一种减小预测范围,将预测值限定为[0...

Spark-ML-0301-Linear Model

线性模型 1 数学描述   许多标准的机器学习算法可以归结为凸优化问题。例如,找到凸函数f的一个极小值的任务,这个凸函数依赖于可变向量w(在spark源码中,一般表示为weights)。 形式上,我们可以将其当作一个凸优化问题\(\min_{w \in R^d} \; f(w)\)。它的目标函数可以表示为如下公式(1): \[\begin{equation} f(w) := \...

Spark-ML-0305-Isotonic regression

保序回归 1 保序回归   保序回归解决了下面的问题:给定包含n个数据点的序列 y_1,y_2,...,y_n , 怎样通过一个单调的序列 beta_1,beta_2,...,beta_n 来归纳这个问题。形式上,这个问题就是为了找到   大部分时候,我们会在括号前加上权重w_i。解决这个问题的一个方法就是 pool adjacent violators algorithm(PA...

Spark-ML-0304-Ensembles-RF

随机森林 1 Bagging   Bagging采用自助采样法(bootstrap sampling)采样数据。给定包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时,样本仍可能被选中, 这样,经过m次随机采样操作,我们得到包含m个样本的采样集。   按照此方式,我们可以采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基本学...

Spark-ML-0304-Ensembles-Gradient-Boosted Trees (GBTs)

梯度提升树 1 Boosting   Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似:先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。 然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器的数目达到事先指定的值T,最终将这T个基学习器进行加权结合。   B...

Spark-ML-0304-Ensembles

集成学习   集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化能力。   根据个体学习器的生成方式,目前的集成学习方法大致可以分为两大类。即个体学习器之间存在强依赖性,必须串行生成的序列化方法以及个体学习器之间不存在强依赖性,可同时生成的并行化方法。 前者的代表是Boosting,后者的代表是B...

Spark-ML-03-Classification-Regression

分类与回归   spark.mllib提供了多种方法用于用于二分类、多分类以及回归分析。 下表介绍了每种问题类型支持的算法。 问题类型 支持的方法 二分类 线性SVMs、逻辑回归、决策树、随机森林、梯度增强树、朴素贝叶斯 多分类 逻辑回归、决策树、...

Fault detection and diagnosis Approaches

故障预测与故障诊断 A Guide to Fault Detection and Diagnosis

断网环境下利用pip安装Python离线安装包

1.在可以联网的开发机器上安装好需要的包 例如: pip install numpy pip install pandas 2.打包已安装的包 在python目录下新建packages文件夹用来存储下载下来的所需安装包。 pip list #查看安装的包 pip freeze >requirements.txt pip install --downloa...