基于潜在表示的自适应权重多视图子空间聚类算法
作者: 刘云祥 王一宾
摘要:现有的多视图聚类研究中,互补性信息和视图噪声作为常见且重要的多视图聚类影响因素,往往没有同时得到关注和优化。基于此,提出一种潜在低秩稀疏约束的自适应权重多视图子空间聚类算法(SMSC-LLSC)。具体的,学习多视图子空间的潜在表示,以全面获取各个视图间的互补信息,并使重构子空间具有低秩稀疏特性,从而使得子空间潜在表示更精准;在构建共享表示矩阵过程中,为每个视图分配自适应权重,以衡量各视图对聚类效果的贡献程度,权重由不同视图的表示矩阵与共享表示矩阵之间距离的反比关系来确定。SMSC-LLSC 在6 个不同数据集中的对比实验结果证明该算法具有一定有效性。
关键词:多视图聚类;子空间聚类;潜在表示;低秩稀疏约束;自适应权重
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2023)17-0010-06
0 引言
在处理现实数据的机器学习研究中,研究对象往往由不同方向来源的数据组成,这决定了数据集具有多源性[1]。比如,人类指纹可以由光学指纹仪、热红外采集仪和电容式指纹仪等多种方式途径获取。无监督学习形式的多视图聚类作为多视图学习的一个重要领域,其思想旨在寻找单个视图数据中的底层结构,再学习一个新的统一视图表示,然后在这个视图表示上使用聚类算法,得到最终聚类结果[2]。
子空间聚类假设高维数据集的数据点是由多个低维子空间共同表示,也就是不同数据匹配不同且相应的低维子空间,其作为一种有效的降维方式,在许多聚类问题中起到了关键的作用[3]。因此,研究者们提出了诸多子空间聚类方法来探寻底层子空间。多视图数据中,多个视图特征信息丰富了每个数据点,聚类效果得到提升。Gao等人[4]提出多视图子空间聚类,对不同视图的子空间表示进行聚类,同时使用一个共同聚类结构确保不同视图之间的一致性。多视图数据的多样性和互补性原则作为处理多视图信息的关键因素,潜在表示能更全面地描述数据本身,充分体现出多视图互补性信息[5]。研究者们引入潜在表示来探索多视图数据存在的互补关系,在此基础上改进了子空间聚类。Zhang等人[7]提出潜在多视图子空间聚类算法[6]和广义潜在多视图子空间聚类算法,两个算法均假设多个视图有一个统一子空间潜在表示,利用潜在表示学习邻接矩阵并进行谱聚类得到最终聚类结果。低秩约束和稀疏约束可以更好地获得数据的全局和局部结构,Wang等人[8]联合低秩表示和稀疏表示到子空间自表示矩阵中,通过谱聚类算法进行最终聚类。即便如此,仍忽略了视图之间存在的差异性以及视图质量的参差不齐。不同视图分配合理权重能提高聚类效果,利用视图自表示矩阵与统一表示矩阵之间距离的反比关系,为每个视图分配合理的权重[9-10]。Kang等人[11]利用反距离加权法融合多视图信息,并利用谱聚类进行最终聚类。Xia等人[12]在此基础上为视图表示添加低秩稀疏约束,进一步提高聚类效果。
结合以上论述内容,本文提出潜在低秩稀疏表示的自适应权重多视图子空间聚类的算法。其主要贡献是:学习多视图信息的潜在表示,并施加低秩稀疏约束,尽可能获取多视图数据的互补信息及全局、局部结构;同时引入自适应权重方法,在构建统一邻接矩阵过程中为不同视图分配合理的权重,也可以降低视图噪声对于聚类结果的影响,并在一个框架内共同优化。在6个不同数据集中的对比实验结果证明,该算法具有一定的有效性。
1 模型与方法
1.1 低秩稀疏约束的多视图子空间聚类
子空间聚类方法中,通常假设数据点来自于不同聚类对应的多个子空间。给定多视图观测值