聚类 聚类是一种无监督学习问题,它的目标就是基于相似度将相似的子集聚合在一起。聚类经常用于探索性研究或者作为分层有监督流程的一部分。 spark.mllib包中支持下面的模型。 k-means算法 GMM(高斯混合模型) PIC(快速迭代聚类) LDA(隐式狄利克雷分布) 二分k-means算法 流式k-means算法 Previous Spark-ML-030103-Linear Model-Regression Next Spark-ML-0502-Clustering-Gaussian mixture CATALOG FEATURED TAGS Machine Learning Spark ME Other CFAL1 Python maths Baby Big Data 大数据 IT Scala English wordcloud quant python Clustering ML Graphx FRIENDS Your Home for Data Science Analytics Vidhya CFA GARP Investopedia Quant Start muchong Coursera