近日,计算机与信息科学学院2022级硕士研究生李梗森在期刊《Applied Soft Computing》(中科院1区,TOP期刊,影响因子IF=8.7)上发表题为“Distance metric learning-based multi-granularity neighborhood rough sets for attribute reduction”的研究论文,对基于度量学习特征选择的相关研究作了具体阐释。该论文由计算机与信息科学学院崔少国教授和桑彬彬副教授共同指导完成。
粗糙集理论的属性约简方法一直是人工智能(AI)领域的研究热点,而邻域粗糙集(NRS)模型由于其在不确定性推理中的良好泛化性能和实用性,近年来在生物信息学、金融数据分析、医疗诊断等领域得到了广泛应用。然而,传统NRS模型在计算样本间距离时使用固定的计算范式,未考虑属性空间中标签对距离计算的影响,这限制了约简算法性能的提升。针对这一问题,本文将距离度量学习引入NRS模型,提出了一种新的DmlMNRS模型。该模型充分考虑了多维属性空间中标签信息,通过使同标签样本间距离更近、不同标签样本间距离更远的综合原则,来学习样本间距离,从而有助于减少分类不确定性。该研究还介绍并证明了DmlMNRS模型的相关性质,并基于此定义了DmlMNRS属性约简准则和属性重要性,设计了一种基于DmlMNRS的启发式属性约简(DMNHAR)算法。本研究提出的新方法在15个公开数据集上进行了广泛实验,结果显示所提出的算法具有优越的鲁棒性和分类性能。