计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (16): 21-25.
王祖辉,姜 维
WANG Zuhui, JIANG Wei
摘要: 朴素贝叶斯分类器在处理垃圾邮件过滤任务时,往往存在数据稀疏问题。由于语料库中特征出现遵循Zipf定律,所以单纯依靠增加训练语料方式难以解决该问题。为克服数据稀疏问题,引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率。通过领域术语抽取与概念相关模型增加分类中语义知识处理能力。采用增量式学习方法完成动态在线学习过程。Ling-Spam垃圾邮件语料库实验表明该方法提高分类精度2.51%,在国家863语料表明该方法比Laplace原则提高了3.05%。