计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (20): 132-137.DOI: 10.3778/j.issn.1002-8331.1907-0390
刘聪,王永利,周子韬,犹锋,张才俊
LIU Cong, WANG Yongli, ZHOU Zitao, YOU Feng, ZHANG Caijun
摘要:
针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。