计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (29): 176-178.
李 斌1,李义兵1,2,何红波1,2
LI Bin1,LI Yi-bing1,2,HE Hong-bo1,2
摘要: 提出一个基于符号序列间LZ复杂性相似度的垃圾邮件识别方法。相比基于向量空间模型的邮件识别,邮件文本间的LZ复杂性相似度计算无需对文本进行预处理和特征提取。同时,K近邻规则的延迟学习特性适合于垃圾邮件样本需要动态调整的应用环境。在Ling-Spam邮件语料集上对提出的识别方法进行十重交叉验证,其总体的识别效果优于基于向量空间模型的部分统计和机器学习方法。