《无语机器学习》一书

图片您好,habrozhiteli!您真正需要了解的有关机器学习的所有内容都可以容纳数百页。

让我们从一个简单的事实开始:汽车不会学习。典型的机器学习涉及找到一个数学公式,当该数学公式应用于一组输入数据(称为训练数据)时,将产生所需的结果。

安德烈·伯科夫(Andrei Burkov)竭尽所能,使每个人都可以成为出色的现代分析师或机器学习专家。设法容纳在其他书籍中的数百页中的内容扩展到数千页。关于机器学习的典型书籍既保守又学术,此处重点是在日常工作中有用的算法和方法。

摘录9.2.3。确定集群数


最重要的问题是数据集中有多少个聚类?当特征向量为一维,二维或三维时,您可以在图形上绘制数据分布并查看特征空间中点的“云”。每个云都是一个潜在的集群。但是,对于D> 3的D维数据,绘制这样的图是有问题的。

确定合理数量的集群的一种方法是基于预测能力的思想。底线是将数据分为训练集和测试集,就像在与老师的教学中一样。分别选择训练集和测试集(大小分别为Ntr的Str和大小为Nte的Ste)后,您可以固定聚类数k,在集合Str和Ste上运行聚类算法C,并获得聚类C(Str,k)和C(Ste,k)的结果。

令A为针对训练集获得的聚类C(Str,k)的结果。 A中的群集可以视为区域。如果样本属于这些区域之一,则意味着它属于某个特定的簇。例如,如果将k均值算法应用于某个数据集,则结果是将特征空间划分为k个多边形区域,如图2所示。 9.2。

我们定义了联合隶属关系D [A,Ste]的Nte×Nte矩阵,根据且仅当来自测试集的数据xi和xi`属于同一簇时,其元素D [A,Ste](i,i`)= 1。否则,D [A,Ste](i,i`)= 0。

现在我们停下来看看发生了什么。我们使用训练数据集将分区A创建为k个群集。然后,我们构造了一个联合隶属关系矩阵,该矩阵指示测试集中的两个样本是否属于A中的一个群集。

显然,如果k是合理的,则在解决方案C中属于同一群集的两个样本(Ste,k)最有可能是属于解中的一个簇和C(Str,k)。另一方面,如果k的值不合理(太高或太低),则基于训练和测试数据的分区可能不太一致。

在图。图9.3显示了所使用的数据。 9.4说明了这个想法。图中的图。 9.4a和9.4b显示了C(Str,4)和C(Ste,4)以及簇的相应区域的结果。在图。 9.4c显示了在训练数据聚类期间获得的集群区域上绘制的测试数据。在图。从9.4c中可以看到,根据在训练数据上获得的面积,橙色测试数据不再属于一个簇。结果,许多零出现在矩阵D [A,Ste]中,这又表明k = 4可能不是最佳的簇数。

聚类数k的形式上更正式的预测力定义为:分区C中

图片

图片第j个聚类在何处(Ste,k),| |。 Aj |是集群Aj中的数据数。

图片

考虑到每个测试聚类的分区C(Str,k),计算其中的成对分数,它们也落入同一聚类中,由训练集的质心确定。预测强度至少由k个测试簇的该值确定。

如实验所示,在ps(k)大于0.8时,合理数量的簇是最大k。图9.5显示了确定被分为两个,三个和四个聚类的数据的不同k值的预测能力的示例。

对于非确定性聚类算法,例如k均值,它可以生成不同的分区选项,具体取决于质心的初始位置,建议针对相同的k执行多个聚类算法运行并计算平均预测力图片

图片

估计簇数的另一种有效方法称为间隙统计。一些分析人员仍然使用的其他自动化程度较低的方法包括弯头法和平均轮廓法。

»有关这本书的更多信息,请访问出版商的网站
» 目录
» Khabrozhiteley 摘录

优惠券可享受25%的折扣- 机器学习

支付纸质版本后,将通过电子邮件发送电子图书。

All Articles