计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (9): 101-108.DOI: 10.3778/j.issn.1002-8331.1612-0283
黄 诚1,2,刘嘉勇1,刘 亮1,何 祥1,汤殿华2
HUANG Cheng1,2, LIU Jiayong1, LIU Liang1, HE Xiang1, TANG Dianhua2
摘要: 针对目前基于白名单过滤技术在海量文本中恶意域名提取的漏报、误报等问题,提出了一种基于上下文语义的恶意域名语料提取模型。该模型分别从恶意域名所在语句的上下文单词、短语进行语义分析,并利用自然语言处理技术自动生成描述恶意域名的语料。通过该模型对公开的APT(Advanced Persistent Threat)分析文档数据提取了大量恶意域名语料数据。利用安全博客文章数据并结合基于随机森林算法的机器分类模型对论文提取的恶意语料的有效性进行了验证。