一种基于维基百科的文本表示方法

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (14): 127-130.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

一种基于维基百科的文本表示方法

黄浩军1，王胜清2

1.北京大学软件与微电子学院，北京 100871
2.北京大学现代教育技术中心，北京 100871

出版日期:2015-07-15 发布日期:2015-08-03

New text represent method based on Wikipedia

HUANG Haojun1, WANG Shengqing2

1.School of Software & Microelectronics, Peking University, Beijing 100871, China
2.Center for Education Technology, Peking University, Beijing 100871, China

Online:2015-07-15 Published:2015-08-03

摘要/Abstract

摘要： 文本表示是自然语言处理中的基础任务，通常的文本表示模型都是基于训练数据充分的情况下进行。而在训练数据缺乏时，无法完成自然语言处理任务。提出了一种基于维基百科的文本表示方法，引入维基百科词条之间的关系，通过PageRank传播模型，能够一定程度上解决训练数据缺乏时文本表示的问题。通过实验论证了基于维基百科的文本表示能够增强分类方法的准确率、召回率和F1-测度。

关键词: 维基百科, 隐含狄利克雷分布, 文本表示, 文本分类

Abstract: Text representation is the basic task in natural language processing. In general, text representation model can build with sufficient text data. While with insufficient data, it can not complete the task in natural language processing. So, it comes up with a new text represent method to overcome the dilemma. It builds the semantic relationship between words using the link in Wikipedia, and enriches the representation with page rank model diffusing the message to other wiki-items. It verifies that this enrichment can raise the precision, recall and F1-measure of the text classification method.

Key words: Wikipedia, Latent Dirichlet Allocation（LDA）, text representation, text classification

黄浩军1，王胜清2. 一种基于维基百科的文本表示方法[J]. 计算机工程与应用, 2015, 51(14): 127-130.

HUANG Haojun1, WANG Shengqing2. New text represent method based on Wikipedia[J]. Computer Engineering and Applications, 2015, 51(14): 127-130.

[1]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[2]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[3]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[4]	贺文亮，朱敏玲. 胶囊神经网络研究现状与未来的浅析[J]. 计算机工程与应用, 2021, 57(3): 33-43.
[5]	滕金保，孔韦韦，田乔鑫，王照乾，李龙. 基于CNN和LSTM的多通道注意力机制文本分类模型[J]. 计算机工程与应用, 2021, 57(23): 154-162.
[6]	武书钊，李功权，卜明伟. 基于知识图谱的自杀倾向检测问答系统构建[J]. 计算机工程与应用, 2021, 57(22): 304-312.
[7]	李铁飞，生龙，吴迪. BERT-TECNN模型的文本分类方法研究[J]. 计算机工程与应用, 2021, 57(18): 186-193.
[8]	丁勇，程家桥，蒋翠清，王钊. 基于主题和关键词特征的比较文本分类方法[J]. 计算机工程与应用, 2021, 57(17): 196-202.
[9]	滕金保，孔韦韦，田乔鑫，王照乾. 基于LSTM-Attention与CNN混合模型的文本分类方法[J]. 计算机工程与应用, 2021, 57(14): 126-133.
[10]	翟一鸣，王斌君，周枝凝，仝鑫. 面向文本分类的多头注意力池化RCNN模型[J]. 计算机工程与应用, 2021, 57(12): 155-160.
[11]	姚佳奇，徐正国，燕继坤，王科人. GCN-PU:基于图卷积网络的PU文本分类算法[J]. 计算机工程与应用, 2021, 57(11): 162-167.
[12]	申艳光，贾耀清. 基于词共现与图卷积的文本分类方法[J]. 计算机工程与应用, 2021, 57(11): 173-178.
[13]	郝超，裘杭萍，孙毅，张超然. 多标签文本分类研究进展[J]. 计算机工程与应用, 2021, 57(10): 48-56.
[14]	张曼，夏战国，刘兵，周勇. 全卷积神经网络的字符级文本分类方法[J]. 计算机工程与应用, 2020, 56(5): 166-172.
[15]	唐庄，王志舒，周爱，冯美姗，屈雯，鲁明羽. 面向文本分类的transformer-capsule集成模型[J]. 计算机工程与应用, 2020, 56(24): 151-156.

一种基于维基百科的文本表示方法

New text represent method based on Wikipedia

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics