基于改进贝叶斯决策的邮件过滤

计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (7): 98-101.

基于改进贝叶斯决策的邮件过滤

薛正元

郑州大学信息工程学院，郑州 450001

出版日期:2013-04-01 发布日期:2013-04-15

Improved probability-based Bayesian anti-spam mechanism

XUE Zhengyuan

School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China

Online:2013-04-01 Published:2013-04-15

摘要/Abstract

摘要： 探讨了基于概率阈值的贝叶斯邮件过滤模型的局限性：由于很少考虑所设定阈值的适用性和实用性，损失了一定的召回率。改进贝叶斯决策，提出了基于随机变量的较小错误分类决策方法；针对邮件处理的特殊性，进一步提出了基于随机变量的较小风险分类决策方法。实验结果表明，处理普通文本分类问题时，前者的分类决策效果更好；而后者在处理邮件问题时性能更优，能够在保持较小误判风险的同时，提高贝叶斯邮件过滤器的召回率以及F值。

关键词: 垃圾邮件, 邮件过滤, 概率, 阈值, 分类决策

Abstract: This paper confers in depth to the limitations of the traditional Bayesian anti-spam mechanism. It seldom thinks about whether the threshold is suitable or not, so the recalling is reduced. Aiming at this question, the paper proposes a lower-error policy decision based on chance variable; and considering the particularity of email classification, a lower-risk policy decision based on chance variable is proposed. The experimental results show that the former one maybe a better way to classify the common text; and the latter one makes better performance on recalling and F value when dealing with emails, at the same time it keeps a lower risk of error judging.

Key words: spam email, email filter, probability, threshold, classify decision

薛正元. 基于改进贝叶斯决策的邮件过滤[J]. 计算机工程与应用, 2013, 49(7): 98-101.

XUE Zhengyuan. Improved probability-based Bayesian anti-spam mechanism[J]. Computer Engineering and Applications, 2013, 49(7): 98-101.

[1]	许小媛，李海波，黄黎. 云存储多异构文件联合延迟尾概率凸优化分析[J]. 计算机工程与应用, 2021, 57(5): 88-94.
[2]	惠鏸，苟博，王滢. 窃听环境下轮流中继网络的安全传输方案[J]. 计算机工程与应用, 2021, 57(4): 77-82.
[3]	于多，黄永东. 基于SPCA和域变换递归滤波的高光谱图像分类[J]. 计算机工程与应用, 2021, 57(4): 199-208.
[4]	梅婕，魏圆圆，许桃胜. 基于密度峰值多起始中心的融合聚类算法[J]. 计算机工程与应用, 2021, 57(22): 78-85.
[5]	齐小祥，李敏，朱颖，宋雨，杜卫东. 基于边缘检测的SAR图像自适应区域分割[J]. 计算机工程与应用, 2021, 57(22): 232-240.
[6]	王英博，孙永荻. 基于GNN的矩阵分解推荐算法[J]. 计算机工程与应用, 2021, 57(19): 129-134.
[7]	李晓花，苏骏，李秀秀. 强干扰环境单观测站水下纯方位多目标跟踪[J]. 计算机工程与应用, 2021, 57(17): 253-259.
[8]	章铁飞，徐斌. 利用内存行激活信息的DRAM行扰动问题研究[J]. 计算机工程与应用, 2021, 57(17): 269-274.
[9]	朱永明，邱文静. 概率多值中智集的关联系数及其应用[J]. 计算机工程与应用, 2021, 57(15): 186-192.
[10]	孙玮婕，杨军. 改进的简单非迭代聚类的遥感影像分割研究[J]. 计算机工程与应用, 2021, 57(13): 185-192.
[11]	陈晓文，刘光帅，刘望华，李旭瑞. 成对旋转不变的共生自适应完全局部三值模式[J]. 计算机工程与应用, 2021, 57(1): 219-226.
[12]	彭家寅. 受控双向远程量子控制[J]. 计算机工程与应用, 2020, 56(9): 117-124.
[13]	卢俊杰，黄金泉，鲁峰. 似然K均值聚类用于涡扇发动机气路故障诊断[J]. 计算机工程与应用, 2020, 56(9): 136-141.
[14]	刘杰，房俊，雷峰津. 电能质量异常数据在线检测方法[J]. 计算机工程与应用, 2020, 56(9): 240-247.
[15]	王文慧，李鹏，胡韵迪. 基于目标预测的扩展目标量测集划分算法[J]. 计算机工程与应用, 2020, 56(8): 143-148.