近期,计算机与信息科学学院2021级本科生彭杰在中科院1区Top期刊《Applied Soft Computing》上发表学术论文“Density-based clustering with boundary samples verification”,陈勇副教授为通讯作者。
在机器学习领域,基于密度的聚类方法是一个重要研究方向。传统密度聚类技术主要通过分析数据的局部密度来对样本进行分类。然而,当处理边缘区域样本时,这些方法面临着较大挑战,如在低密度边界样本易被误判为噪声,在密度相近且邻近的两个群簇之间准确划分边界点的困难。
该研究提出了一种基于K最近邻的密度聚类边界样本改进方法,通过深入分析样本与其K最近邻的空间关系及其与新形成的簇之间的连接性,有效识别边界样本。在所有簇完全形成后,进一步根据样本的K最近邻调整其分类标签,从而显著提高对边界样本的分类精度。该研究通过在18个公开数据集上进行的广泛实验,验证了所提出方法的有效性。实验结果清楚地展示了该方法在处理边界样本方面的独特优势,能够有效提升聚类的准确性和鲁棒性。
原文链接