基于边权重的WordNet词语相似度计算

doi:10.3778/j.issn.1002-8331.1607-0159

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (1): 172-178.DOI: 10.3778/j.issn.1002-8331.1607-0159

基于边权重的WordNet词语相似度计算

郭小华1，彭琦2，邓涵1，朱新华1

1.广西师范大学计算机科学与信息工程学院，广西桂林 541004
2.广西师范大学网络中心，广西桂林 541004

出版日期:2018-01-01 发布日期:2018-01-15

Edge weight-based word similarity computation in WordNet

GUO Xiaohua1, PENG Qi2, DENG Han1, ZHU Xinhua1

1.College of Computer Science & Information Technology, Guangxi Normal University, Guilin, Guangxi 541004, China
2.Department of Network Center, Guangxi Normal University, Guilin, Guangxi 541004, China

Online:2018-01-01 Published:2018-01-15

摘要/Abstract

摘要： 针对目前词语相似度算法中普遍存在的信息源单一化，计算结果非线性偏高，以及计算性能和效率的不一致的缺陷，提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上，通过边权重改善WordNet结构中的层次不均匀性，引入编码概念唯一标识两个概念间的相似度，并利用余弦函数修正计算结果的非线性偏差。实验结果表明，对于MC30和RG65测试集，使用该方法计算的词语相似度值与人工判定值计算得到的Pearson相关系数均达到0.87；此外，该方法在计算性能和效率上均保持较高水平。

关键词: 词语相似度, 边权重, WordNet, 编码

Abstract: Aimed at the defective including single information source, high nonlinear computational results and asymmetry between performance and efficiency of computation for word similarity currently, a word similarity computation method based on edge weight in WordNet is proposed. On the basis of path and depth, hierarchy in homogeneity in WordNet structure is improved by adding edge weight, similarity between two concepts is identified uniquely by definite encoding, and nonlinear deviation of computational result is corrected by using cosine function. Experimental results show that Pearson correlation coefficients obtained by comparing word similarity values calculated by using this method with corresponding artificial judgment value for MC30 and RG65 test set all reach 0.87. In addition, a higher level in performance and efficiency of computation is kept simultaneously.

Key words: word similarity, edge weight, WordNet, encoding

郭小华1，彭琦2，邓涵1，朱新华1. 基于边权重的WordNet词语相似度计算[J]. 计算机工程与应用, 2018, 54(1): 172-178.

GUO Xiaohua1, PENG Qi2, DENG Han1, ZHU Xinhua1. Edge weight-based word similarity computation in WordNet[J]. Computer Engineering and Applications, 2018, 54(1): 172-178.

[1]	许昊，张凯，田英杰，种法广，王子超. 深度神经网络图像描述综述[J]. 计算机工程与应用, 2021, 57(9): 9-22.
[2]	吴文龙，周喜，王轶，王保全. WKAG：一种针对不平衡医保数据的欺诈检测方法[J]. 计算机工程与应用, 2021, 57(9): 247-254.
[3]	李健，孙大松，张备伟. 结合双编码器与对抗训练的图像修复[J]. 计算机工程与应用, 2021, 57(7): 192-197.
[4]	温杰彬，杨文忠，马国祥，张志豪，李海磊. 基于Apex帧光流和卷积自编码器的微表情识别[J]. 计算机工程与应用, 2021, 57(4): 127-133.
[5]	陈海，钱付兰，陈洁，赵姝，张燕平. 基于变分自编码器的评分预测模型[J]. 计算机工程与应用, 2021, 57(22): 153-159.
[6]	安磊，韩忠华，林硕，尚文利. 面向网络入侵检测的GAN-SDAE-RF模型研究[J]. 计算机工程与应用, 2021, 57(21): 155-164.
[7]	陈倩茹，李雅丽，许科全，刘铱龙，王淑琴. 自调优自适应遗传算法的WKNN特征选择方法[J]. 计算机工程与应用, 2021, 57(20): 164-171.
[8]	丁成，翁理国，夏旻，崔逸尘，钱俊豪，刘佳. 多注意力机制网络卫星图像分割算法[J]. 计算机工程与应用, 2021, 57(2): 223-229.
[9]	刘臣，陈静娴，郝宇辰，李秋，甄俊涛. 基于时空网络的地铁进出站客流量预测[J]. 计算机工程与应用, 2021, 57(18): 248-254.
[10]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[11]	徐麒皓，李波. 改进双向LSTM的肺结节分割方法[J]. 计算机工程与应用, 2021, 57(15): 237-244.
[12]	乔伟涛，黄海燕，王珊. 基于Transformer编码器的语义相似度算法研究[J]. 计算机工程与应用, 2021, 57(14): 158-163.
[13]	张阳，鲁鸣鸣，郑一基，李海峰. 基于图自编码器模型的学生成绩预测[J]. 计算机工程与应用, 2021, 57(13): 251-257.
[14]	胡任远，刘建华，卜冠南，张冬阳，罗逸轩. 融合BERT的多层次语义协同模型情感分析研究[J]. 计算机工程与应用, 2021, 57(13): 176-184.
[15]	郑淋文，周金治，黄静. 深度稀疏自编码器在ECG特征提取中的应用[J]. 计算机工程与应用, 2021, 57(11): 156-161.

基于边权重的WordNet词语相似度计算

Edge weight-based word similarity computation in WordNet

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics