计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (18): 84-97.DOI: 10.3778/j.issn.1002-8331.2211-0411
刘海涛,陈春梅,庞忠祥,梁志强,李晴
LIU Haitao, CHEN Chunmei, PANG Zhongxiang, LIANG Zhiqiang, LI Qing
摘要: 由于朴素贝叶斯算法忽略了数据多维属性的相关性,从而导致分类算法的极大应用局限。对此提出多类属性加权与正交变换融合的朴素贝叶斯改进算法。利用贡献度与相关互信息去量化离散属性以及离散属性值之间的相关程度,以获得其权重;利用正交变换方法消除连续属性之间的线性关系;将加权后的离散属性和正交变换后的连续属性的条件概率进行区分计算,从而得到较高的分类精度并提高算法的泛化能力。通过在公开数据集以及校园一卡通数据集上的[k]折交叉验证,实验结果表明,与最新的5种改进朴素贝叶斯算法相比,该算法的准确率高了7.19~9.94个百分点,加权平均F1值高了6.4~11.64个百分点。