层次聚类算法

对聚类算法有一点点入门的时候就知道,几乎所有的“平面型”聚类算法都有一个共同的弱点-难以确定类别数(聚类停止条件),而层次聚类在一定程度上解决了这个问题(它算一种比较古老比较通用的聚类算法吧)。谈到层次这个词,很容易想象到聚类的过程是线性分阶段进行的。

1. 层次聚类两种基本方法:凝聚的和分裂的

  • 凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。这里需要定义簇的邻近性概念,如图所示。

层次聚类算法

  • 分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单个点簇。这种情况比较复杂,我们需要确定每一步分裂哪个簇,以及如何分裂。

层次聚类算法

2. 常用的基于凝聚的层次聚类

下面探讨两个问题:

1) 定义簇之间的邻近性(需要注意的是两个点的距离可以根据自己的需要去定义,这里说的是如何根据簇内多个点与其他点或者簇计算两个簇之间的邻近性)

源于簇的基于图的术语,有MIN、MAX、和组平均三种方法。MIN定义簇之间的邻近度为不同簇的两个最近的点之间的邻近度(图的术语表示:不同的结点子集中两个结点之间的最短边)。MAX取不同簇中两个最远的点之间的邻近度。通常我们使用单链(single link)和全链(complete link)来分别表示这两种方法。组平均定义簇邻近度为取不同簇的所用点对邻近度的平均值(平均变长)。三种方法如图所示。

层次聚类算法

当然,簇也可用质心代表,这样邻近度的定义为质心之间的距离就更加自然。还有一种方法Ward,该方法试图最小化点到其簇质心的距离的平方和。

2) 时间和空间复杂性

需要存储m2/2个邻近度,其中m是数据点的个数。因此空间复杂度为O(m2)。

需要O(m2)时间计算邻近度矩阵,之后步骤3和4涉及m-1次迭代,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,则查找两个最近簇的开销可能为O(m-i+1).总时间为O(m2logm)。

3. 问题及优缺点

层次聚类的主要问题主要包括

1) 缺乏全局目标函数,使用各种标准在每一步局部地确定哪些簇应当合并,成功避开了解决困难的组合优化问题。但是这样的方法没有局部极小问题或很难选择初始点。

2) 处理不同大小簇的能力,若想平等地对待不同大小的簇,必须赋予不同簇中的点不同的权值。

3) 合并决策是不可逆的,一旦做出决策,就不能撤销了。

优点与缺点:

比较适合那些需要层次结构的应用,通常情况下,层次聚类会产生较高质量的聚类结果并可以根据邻近度阈值等相关指标确定聚类个数。然而计算量和存储代价是昂贵的,高维数据可能会出现较大问题。由于是不可逆的,对于噪声比较敏感。有些研究先使用其他聚类算法进行部分聚类,然后利用之前聚好的簇再进行层次聚类往往可以解决上述问题。

 

张晗

2015.1.28

原创文章,作者:admin,如若转载,请注明出处:https://www.isclab.org.cn/2015/01/28/%e5%b1%82%e6%ac%a1%e8%81%9a%e7%b1%bb%e7%ae%97%e6%b3%95/

(2)
adminadmin
上一篇 2015年1月28日
下一篇 2015年1月28日

相关推荐

  • FNN模型正确性测试及测试样本生成

    FNN模型被广泛应用于自动驾驶、医疗诊断等安全关键的领域,因此需要测试模型的正确性,及时发现模型的缺陷并进行模型的修复与再训练。本次学术报告介绍了FNN模型正确性测试中遇到的两个关…

    2024年1月26日
    2.1K
  • 异常检测算法

        iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精…

    学术报告 2017年11月27日
    2.4K
  • 数据挖掘中的数据清洗方法

          数据清洗是数据挖掘工作中很重要的一部分工作,目的是解决数据的质量问题,将“脏”数据变成标准的、干净的数据,更…

    2018年5月14日
    2.5K
  • 文本相似度度量方法

    文本相似度度量是自然语言处理中的一个基础问题,是许多下游任务的基础,如文本分类、信息检索、对话系统、句义标注等。相似度匹配的过程包括了构造特征与度量特征两个基本步骤,其中构造特征是…

    2022年3月13日
    2.6K
  • 大语言模型的越狱攻击

    主要探讨大语言模型的越狱攻击,阐述其研究背景、意义,历史与现状。而后涉及 EnDec和 ActorAttack 算法讲解,包含算法简介,以及算法的具体流程,通过实验对比展示其性能,…

    2024年12月19日
    2.4K
  • 小样本命名实体识别

    在很多场景下,收集大量的有标签的数据是非常昂贵、困难、甚至不可能。因此在特定领域、小语种等缺乏标注资源的情况下,NER 任务往往得不到有效解决。为了解决少量标注数据的命名实体识别,…

    2023年8月30日
    1.9K
  • 扩散模型的后门攻击研究

    文本-图像生成模型在当今生活中有广泛应用,最新研究表明,这类多模态的生成模型也面临着安全风险,例如对抗样本攻击、成员推理攻击和后门攻击等。本次学术报告介绍了文本-图像生成模型最新的…

    2025年9月16日
    2.2K
  • 基于GAN的网络流量对抗样本生成技术

    随着机器学习的发展,机器学习已经广泛应用于入侵检测,但研究发现基于机器学习的检测技术存在安全隐患,极易遭受对抗样本的攻击,为了更好的评估入侵检测系统的鲁棒性,研究网络流量的对抗样本…

    2021年1月10日
    4.6K
  • 二进制代码补丁存在性测试

    二进制代码补丁存在性测试(Patch Presence Test, PPT) 旨在检测目标二进制文件是否已应用特定补丁,以确保安全性和合规性。希望在这次学术报告中,大家掌握二进制代…

    2025年3月3日
    1.9K
  • 案件文本分析

    案件文本分析包含多个子任务,比如罪名、刑期、法条裁决、相似案例匹配、Q&A等。人工智能在法律中的应用,其目标是充分提升法治效能,将法律工作者从繁杂的工作中解放出来。本次学术…

    2020年3月29日
    2.2K