中文垃圾邮件过滤系统中的实时分词算法设计

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (3): 179-179.

中文垃圾邮件过滤系统中的实时分词算法设计

申庆永张建忠何云杨洁

南开大学计算机系南开大学计算机系网络实验室南开大学计算机科学与技术系长沙交通学院计算机工程系

收稿日期:2006-02-23 修回日期:1900-01-01 出版日期:2007-01-21 发布日期:2007-01-21
通讯作者: 申庆永

An Algorithm of Chinese Word Segmentation In Anti-spam System

Received:2006-02-23 Revised:1900-01-01 Online:2007-01-21 Published:2007-01-21

摘要/Abstract

摘要： 在基于内容的中文反垃圾邮件技术中，中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器，中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此，本文提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则，同时，在实时分类阶段结合hash表进行特征查询，极大地提高了系统的时间效率。

关键词: 中文分词, 垃圾邮件, TRIE树

Abstract: Chinese word segmentation is an absolutely necessary step in the Chinese anti-spam technologies based on mail content. The efficiency of word segmentation algorithm is becoming a bottleneck when it is used in the training of abundant mail samples or on the high load mail server. A real time algorithm is proposed here, which uses a TRIE structure as the carrier of dictionary. Based on the Maximum Matching (MM) principle and combined with the hash table of word attributes, this algorithm improves the efficiency of the anti-spam system observably.

Key words: Chinese word segmentation, Spam, TRIE tree

申庆永张建忠何云杨洁. 中文垃圾邮件过滤系统中的实时分词算法设计[J]. 计算机工程与应用, 2007, 43(3): 179-179.

[1]	邬满, 文莉莉, 孙苗. 注意力机制海洋场景图像理解算法[J]. 计算机工程与应用, 2022, 58(10): 231-239.
[2]	涂文博，袁贞明，俞凯. 无池化层卷积神经网络的中文分词方法[J]. 计算机工程与应用, 2020, 56(2): 120-126.
[3]	黄思猛1，程良伦2，王涛2. 基于双数组trie树的多模式复杂事件检测方法[J]. 计算机工程与应用, 2019, 55(4): 91-95.
[4]	孙宝山，李玮. 窥视孔连接的循环网络在中文分词上的研究[J]. 计算机工程与应用, 2019, 55(19): 160-165.
[5]	成于思1，施云涛2. 面向专业领域的中文分词方法[J]. 计算机工程与应用, 2018, 54(17): 30-34.
[6]	张绍阳，曹家波，王子凡，曲卫东. 基于加权二部图匹配的中文段落相似度计算[J]. 计算机工程与应用, 2017, 53(18): 95-101.
[7]	赵卫锋1，2，张勤1. 非结构化中文自然语言地址描述的自动识别[J]. 计算机工程与应用, 2016, 52(23): 19-24.
[8]	朱艳辉，刘璟，徐叶强，田海龙，马进. 基于条件随机场的中文领域分词研究[J]. 计算机工程与应用, 2016, 52(15): 97-100.
[9]	陈念1，2，唐振民2. QBC主动采样学习在垃圾邮件在线过滤中的应用[J]. 计算机工程与应用, 2014, 50(22): 170-174.
[10]	周俊1，3，郑中华2，张炜3. 基于改进最大匹配算法的中文分词粗分方法[J]. 计算机工程与应用, 2014, 50(2): 124-128.
[11]	高翔1，李兵2. 中文短文本去重方法研究[J]. 计算机工程与应用, 2014, 50(16): 192-197.
[12]	薛正元. 基于改进贝叶斯决策的邮件过滤[J]. 计算机工程与应用, 2013, 49(7): 98-101.
[13]	翟军昌1，秦玉平1，车伟伟2. 应用特征词分类贡献的垃圾邮件过滤研究[J]. 计算机工程与应用, 2012, 48(34): 116-119.
[14]	张思发，马永格. 面向地学信息领域垂直搜索引擎设计与实现[J]. 计算机工程与应用, 2012, 48(33): 85-88.
[15]	叶继平，张桂珠. 中文分词词典结构的研究与改进[J]. 计算机工程与应用, 2012, 48(23): 139-142.