层次聚类算法

对聚类算法有一点点入门的时候就知道,几乎所有的“平面型”聚类算法都有一个共同的弱点-难以确定类别数(聚类停止条件),而层次聚类在一定程度上解决了这个问题(它算一种比较古老比较通用的聚类算法吧)。谈到层次这个词,很容易想象到聚类的过程是线性分阶段进行的。

1. 层次聚类两种基本方法:凝聚的和分裂的

  • 凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。这里需要定义簇的邻近性概念,如图所示。

层次聚类算法

  • 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单个点簇。这种情况比较复杂,我们需要确定每一步分裂哪个簇,以及如何分裂。

层次聚类算法

2. 常用的基于凝聚的层次聚类

下面探讨两个问题:

1) 定义簇之间的邻近性(需要注意的是两个点的距离可以根据自己的需要去定义,这里说的是如何根据簇内多个点与其他点或者簇计算两个簇之间的邻近性)

源于簇的基于图的术语,有MIN、MAX、和组平均三种方法。MIN定义簇之间的邻近度为不同簇的两个最近的点之间的邻近度(图的术语表示:不同的结点子集中两个结点之间的最短边)。MAX取不同簇中两个最远的点之间的邻近度。通常我们使用单链(single link)和全链(complete link)来分别表示这两种方法。组平均定义簇邻近度为取不同簇的所用点对邻近度的平均值(平均变长)。三种方法如图所示。

层次聚类算法

当然,簇也可用质心代表,这样邻近度的定义为质心之间的距离就更加自然。还有一种方法Ward,该方法试图最小化点到其簇质心的距离的平方和。

2) 时间和空间复杂性

需要存储m2/2个邻近度,其中m是数据点的个数。因此空间复杂度为O(m2)。

需要O(m2)时间计算邻近度矩阵,之后步骤3和4涉及m-1次迭代,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,则查找两个最近簇的开销可能为O(m-i+1).总时间为O(m2logm)。

3. 问题及优缺点

层次聚类的主要问题主要包括

1) 缺乏全局目标函数,使用各种标准在每一步局部地确定哪些簇应当合并,成功避开了解决困难的组合优化问题。但是这样的方法没有局部极小问题或很难选择初始点。

2) 处理不同大小簇的能力,若想平等地对待不同大小的簇,必须赋予不同簇中的点不同的权值。

3) 合并决策是不可逆的,一旦做出决策,就不能撤销了。

优点与缺点:

比较适合那些需要层次结构的应用,通常情况下,层次聚类会产生较高质量的聚类结果并可以根据邻近度阈值等相关指标确定聚类个数。然而计算量和存储代价是昂贵的,高维数据可能会出现较大问题。由于是不可逆的,对于噪声比较敏感。有些研究先使用其他聚类算法进行部分聚类,然后利用之前聚好的簇再进行层次聚类往往可以解决上述问题。

 

张晗

2015.1.28

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2015/01/28/%e5%b1%82%e6%ac%a1%e8%81%9a%e7%b1%bb%e7%ae%97%e6%b3%95/

(2)
adminadmin
上一篇 2015年1月28日
下一篇 2015年1月28日

相关推荐

  • 虚拟化平台操作系统内核级恶意攻击行为及其检测技术

          虚拟化技术的提出为操作系统内核安全的保护引入了新的思路和手段——虚拟机监视器( Virtual Machin…

    2019年5月20日
    2.5K
  • 深度神经网络鲁棒性评估方法

    本报告介绍了深度神经网络鲁棒性评估方法的基本概念和评估方式,并讲述了两种评估方法,分别从定性分析和定量计算两个角度讲述了如何对鲁棒性进行评估,提升对深度神经网络鲁棒性和评估方法的认…

    2023年4月3日
    2.9K
  • 面向深度学习模型的鲁棒性解释方法研究

    深度学习模型的鲁棒性解释方法旨在提升模型在面对输入扰动或对抗攻击时的解释一致性,是增强模型可信性和应用价值的重要研究方向。本次学术报告介绍了该领域的研究背景与发展现状,重点阐述了M…

    2024年12月19日
    2.4K
  • 深度神经网络模型水印保护方法

    摘要:本报告介绍了深度神经网络模型水印的基本概念和嵌入方式,并讲述了两种深度神经网络模型水印保护方法,从水印嵌入、提取和验证三个角度分析了保护模型的原理,提升对模型知识产权保护的认…

    2023年3月12日
    2.8K
  • 词向量计算——word2vec算法理解

    魏超2014.11.2

    2014年11月4日
    2.4K
  • 爬虫中的攻与防

    爬虫技术是获取数据的利器,它避免了繁琐又低效的人工数据搜集。爬虫带来获取数据极大便利的同时,也催生了反爬技术的发展。学术报告以反爬措施以及对抗反爬的手段作为议题,详细介绍了5类反爬…

    2020年5月10日
    3.0K
  • 数据样本的质量评估方法

    本报告主要介绍数据样本的质量评估方法。随着数据规模的不断扩大,如何有效评估数据样本的贡献成为提升模型性能和效率的关键问题。报告分析了当前领域内的主要评估方法,讨论了不同评估标准对模…

    2025年2月24日
    2.7K
  • 人工智能模型的公平性测试

    人工智能技术发展迅速,不仅在图像领域,在决策系统等领域也发挥了重要作用。用于模型训练的数据集中含有显示或者隐式的敏感属性(如性别、种族等),模型往往会利用敏感属性的特征做出决策,这…

    2024年9月29日
    2.7K
  • 半监督学习研究综述

    半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。本次报告首先讲述了半监督学…

    2020年3月3日
    3.3K
  • 融合多模态交互及语义一致性建模的社交机器人检测

    社交机器人模仿人类在Twitter等社交平台上的行为。数以百万计的机器人通常基于平台API,通过自动化程序控制,通过模仿真实用户以实现恶意目标,检测社交机器人对于净化网络空间环境具…

    2023年7月14日
    2.8K