一种大容量文本集的智能检索方法

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (7): 143-145.

• 数据库、信号与信息处理 • 上一篇下一篇

一种大容量文本集的智能检索方法

金小峰

延边大学工学院计算机科学与技术系智能信息处理研究室，吉林延吉 133002

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-03-01 发布日期:2011-03-01

Intelligent information retrieval approach for large-scale collections of full-text document

JIN Xiaofeng

Intelligent Info. Processing Lab，Dept. of Computer Sci. and Tech.，College of Engineering，Yanbian University，Yanji，Jilin 133002，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-03-01 Published:2011-03-01

摘要/Abstract

摘要： 分析了潜在语义模型，研究了潜在语义空间中文本的表示方法，提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选，剔除非相关文本；使用大规模文本检索方法对相关文本在段落一级进行精确检索，其中为了提高检索的执行效率，在检索算法中引入了遗传算法；输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。

关键词: 向量空间模型, 潜在语义索引, 奇异值分解, 文本信息检索

Abstract: An information retrieval approach for large-scale collections of full-text document is proposed according to latent model analysis and investigation of latent space-based text representation form.The retrieval process is divided into rough irrelative full-text documents culling procedure，and relative full-text document precise searching procedure.Irrelative documents are removed by the first procedure.Relative full-text documents are retrieved in passage level by the second one，and in this process，GA algorithm is introduced in order to achieve best performance.Finally，the candidate passage indices are returned.The validity and high efficiency of the proposed method are shown by experimental results.

Key words: Vector Space Model（VSM）, Latent Semantic Indexing（LSI）, Singular Value Decomposition（SVD）, text information retrieval

金小峰. 一种大容量文本集的智能检索方法[J]. 计算机工程与应用, 2011, 47(7): 143-145.

JIN Xiaofeng. Intelligent information retrieval approach for large-scale collections of full-text document[J]. Computer Engineering and Applications, 2011, 47(7): 143-145.

[1]	蔡冬丽，钟清华，朱永升，廖金湘，韩劢之. 三维输入卷积神经网络脑电信号情感识别[J]. 计算机工程与应用, 2021, 57(5): 161-167.
[2]	杨信民，董红斌，谭成予，周雯. 采用奇异值分解和信息增益的树突状细胞模型[J]. 计算机工程与应用, 2021, 57(15): 156-162.
[3]	韩邦，李子臣，汤永利. 基于同态加密的全文检索方案设计与实现[J]. 计算机工程与应用, 2020, 56(21): 103-107.
[4]	赵青，冶继民，常芳丽. 两正定矩阵联合对角化盲分离算法[J]. 计算机工程与应用, 2019, 55(7): 214-219.
[5]	曹浩，陈里里，司吉兵，任君兰. 奇异值分解和稀疏自编码器的轴承故障诊断[J]. 计算机工程与应用, 2019, 55(20): 257-262.
[6]	叶雪梅1，2，毛雪岷1，2，夏锦春1，2，王波1，2. 文本分类TF-IDF算法的改进研究[J]. 计算机工程与应用, 2019, 55(2): 104-109.
[7]	赵建，张友鹏，赵斌. 基于奇异值分解理论的钢轨断裂检测方法[J]. 计算机工程与应用, 2018, 54(9): 243-250.
[8]	梁新宇1，2，吴建德1，2，黄国勇1，2，孙磊1，2. H∞鲁棒自适应CKF算法在组合导航中的应用[J]. 计算机工程与应用, 2018, 54(9): 251-256.
[9]	王茜竹，邱聪聪. Massive MIMO系统基于子空间的半盲信道估计[J]. 计算机工程与应用, 2018, 54(8): 91-95.
[10]	黄刚劲1，2，范玉刚1，2，冯早1，2，刘英杰1，2. 基于广义形态滤波和MRSVD的故障诊断方法研究[J]. 计算机工程与应用, 2018, 54(3): 217-221.
[11]	向广利，李安康，林香，熊彬. 基于同态加密的多关键词检索方案[J]. 计算机工程与应用, 2018, 54(2): 97-101.
[12]	李天雪，王建平，张敏情，孔咏骏. 基于SVD压缩的高保真可逆信息隐藏算法[J]. 计算机工程与应用, 2018, 54(14): 115-119.
[13]	刘翠响，马玉双，王宝珠，郭志涛. 过完备字典稀疏表示下的RAMP重构算法[J]. 计算机工程与应用, 2018, 54(14): 199-202.
[14]	郑雄风，丁立新，万润泽. 基于用户和产品Attention机制的层次BGRU模型[J]. 计算机工程与应用, 2018, 54(11): 145-152.
[15]	李越1，2，范玉刚1，2，黄国勇1，2. MRSVD敏感分量在单频周跳探测修复中的应用[J]. 计算机工程与应用, 2017, 53(7): 220-224.

一种大容量文本集的智能检索方法

Intelligent information retrieval approach for large-scale collections of full-text document

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics