计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (7): 107-114.DOI: 10.3778/j.issn.1002-8331.2003-0430
韦佶宏,郑荣锋,刘嘉勇
WEI Jihong, ZHENG Rongfeng, LIU Jiayong
摘要:
针对使用传统机器学习方法来识别恶意TLS流量受到专家经验的影响较大、识别与分类效果不理想的问题,提出了HNNIM(Hybrid Neural Network Identification Model)模型来进行识别与分类。模型由两层组成:第一层用于提取特征,第二层用于识别与分类。第一层中,提取的特征分为两部分,一部分特征由深度神经网络自动挖掘,另一部分特征根据专家经验选取,并由深度神经网络进一步筛选;第二层将第一层筛选出的特征进行聚合,采用全连接的深度神经网络进一步学习和拟合。通过分析大量TLS流量样本,最终选用TLS流量中的ClientHello与ServerHello消息报文与TCP协议交互信息这两部分来作为特征空间。实验的结果表明,HNNIM模型在恶意TLS流量的识别任务上关于恶意样本的F1值为0.989,较随机森林、SVM、XGBoost、卷积神经网络模型,在F1值上分别提升了0.016、0.016、0.019、0.043;在多分类任务上的平均准确率为89.28%,较随机森林、SVM、XGBoost、卷积神经网络模型分别提升了9.92%、9.09%、11.31%、7.03%。