计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (24): 84-90.DOI: 10.3778/j.issn.1002-8331.1809-0259
王雨琪,刘博文,林果园
WANG Yuqi, LIU Bowen, LIN Guoyuan
摘要: 为了应对钓鱼网站的检测逃避策略,提出一种基于URL语言特征的钓鱼网站检测算法。通过分析钓鱼网站和合法网站的URL在不同检测域上的差异,定义基元和敏感度来描述其语言特征。先根据基元对主级域名进行相似性检测,当相似性低于预先设定的阈值时,选取有效的子域名特征,利用随机森林算法对子域名的语言特征进行学习和检测。实验结果表明,该算法的准确率达95.6%,系统运行时间相对较小,平均识别时间小于1 s。