在未分类英文文档集中挖掘相关词的方法

doi:10.3778/j.issn.1002-8331.2009.05.044

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (5): 151-153.DOI: 10.3778/j.issn.1002-8331.2009.05.044

• 数据库、信号与信息处理 • 上一篇下一篇

在未分类英文文档集中挖掘相关词的方法

付仲恺,秦华

北京工业大学计算机学院，北京，100022

收稿日期:2008-01-10 修回日期:2008-04-14 出版日期:2009-02-11 发布日期:2009-02-11
通讯作者: 付仲恺

Approach for mining associative terms in uncategorized English documents set

FU Zhong-kai,QIN Hua

College of Computer Science and Technology，Beijing University of Technology，Beijing 100022，China

Received:2008-01-10 Revised:2008-04-14 Online:2009-02-11 Published:2009-02-11
Contact: FU Zhong-kai

摘要/Abstract

摘要： 在搜索引擎结果相关性判断、文字语音转换与识别等领域中，如何准确地分析单词之间的搭配关系是主要研究问题之一。利用互联网中的海量信息，在对大量英文网页进行统计分析的基础上，利用单词的出现频率和单词对的共现频率归纳总结出了未分类互联网页面中单词相关程度判定的经验性结论，提出了一种基于文档集统计分析的单词相关程度排序方法和计算公式，并根据该方法实现了分布式的英文单词相关性挖掘系统的原型。

关键词: 数据挖掘, 网页分类, 关联规则, 排序算法, 文本表示

Abstract: In the improvement of search engine result，voices recognize fields，how to analyze the relationship between two words exactly is a key point.To analyze and solve this problem，some experiment conclusions are proposed by statistics of frequency of terms and concurrency terms on the basis of considerable English web pages.According to the conclusions，an approach is addressed to calculate ranks of associative terms and a distributed proto-type system is implemented.

Key words: data mining, web-page classification, association rules, sort algorithm, text representation

付仲恺,秦华. 在未分类英文文档集中挖掘相关词的方法[J]. 计算机工程与应用, 2009, 45(5): 151-153.

FU Zhong-kai,QIN Hua. Approach for mining associative terms in uncategorized English documents set[J]. Computer Engineering and Applications, 2009, 45(5): 151-153.

[1]	宗晓萍，陶泽泽. 基于掌握速度的知识追踪模型[J]. 计算机工程与应用, 2021, 57(6): 117-123.
[2]	高天宇，王庆荣，杨磊. 粗糙集属性依赖度强化的应急数据挖掘模型[J]. 计算机工程与应用, 2021, 57(3): 87-93.
[3]	马洋，赵旭俊. 基于相关子空间的多源离群检测算法[J]. 计算机工程与应用, 2021, 57(17): 88-95.
[4]	张念蓬，吴旭，朱强. 基于熵的过采样框架[J]. 计算机工程与应用, 2021, 57(13): 96-101.
[5]	张博文，刘智，桑国明. 基于核密度波动的异常检测算法[J]. 计算机工程与应用, 2021, 57(12): 132-136.
[6]	张振海，张湘婷. 上下文感知的高铁信息服务推荐方法研究[J]. 计算机工程与应用, 2021, 57(12): 231-236.
[7]	饶加旺，马荣华. 改进核密度估计的空间点密度算法[J]. 计算机工程与应用, 2021, 57(11): 260-265.
[8]	杨葛英，沈夏炯，史先进，张磊. 以概念格为背景的关联规则可视化[J]. 计算机工程与应用, 2021, 57(1): 84-91.
[9]	王杰，陈志刚，刘加玲，程宏兵. 基于聚类的云隐私行为挖掘技术[J]. 计算机工程与应用, 2020, 56(5): 80-84.
[10]	王子龙，李进，宋亚飞. 基于距离和权重改进的K-means算法[J]. 计算机工程与应用, 2020, 56(23): 87-94.
[11]	衣俊艳，吴博雅，雍巧玲. 具有加权特性的弹性网络聚类算法研究[J]. 计算机工程与应用, 2020, 56(22): 55-65.
[12]	纪文璐，王海龙，苏贵斌，柳林. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 33-41.
[13]	顾军华，苏鸣，张亚娟，张丹红. 基于位编码链表的快速频繁模式挖掘算法研究[J]. 计算机工程与应用, 2020, 56(19): 86-93.
[14]	刘文芬，穆晓东，黄月华. 基于多分辨率网格的异常检测方法[J]. 计算机工程与应用, 2020, 56(17): 78-85.
[15]	刘莉萍1，章新友1，牛晓录2，郭永坤1，丁亮1. 基于Spark的并行关联规则挖掘算法研究综述[J]. 计算机工程与应用, 2019, 55(9): 1-9.

在未分类英文文档集中挖掘相关词的方法

Approach for mining associative terms in uncategorized English documents set

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics