基于内容和分层结构的XML文件自动分类方法

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (3): 168-168.

基于内容和分层结构的XML文件自动分类方法

唐凯

中国科学院计算技术研究所

收稿日期:2006-02-08 修回日期:1900-01-01 出版日期:2007-01-21 发布日期:2007-01-21
通讯作者: 唐凯

A Method of Classification Based On Content And Hierarchical Structure For XML File

Received:2006-02-08 Revised:1900-01-01 Online:2007-01-21 Published:2007-01-21

摘要/Abstract

摘要： 提出了一种利用XML文件内在的分层结构为基础的文件分类方法，并与改良的VSM方法的实验结果进行了比较。和以往XML文件的分类方法不同的是，此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非结构的信息产生一般特征集，然后再针对XML文件各个层次重要性赋予一定的权重，从而产生层次特征集，然后根据一些领域知识，产生知识特征集，将三个特征集结合起来对XML进行分类。实验结果表明，这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。

关键词: 特征词, 文件自动分类

Abstract: A new method of classification based on hierarchical structure for XML file is proposed in this paper. Three feature word cluster are separately generated from the content, hierarchical structure, and domain knowledge. They all lead to the classification result. A experiment system is designed to show this method effective and feasible. Key words: Feature word, Text auto classification

Key words: Feature word, Text auto classification

唐凯. 基于内容和分层结构的XML文件自动分类方法[J]. 计算机工程与应用, 2007, 43(3): 168-168.

[1]	邱云飞1，倪学峰1，邵良杉2. 商品隐式评价对象提取的方法研究[J]. 计算机工程与应用, 2015, 51(19): 114-118.
[2]	高原1，顾明亮1，2，孙平2，王侠2，张长水3. 多用途汉语方言语音数据库的设计[J]. 计算机工程与应用, 2012, 48(5): 118-120.
[3]	翟军昌1，秦玉平1，车伟伟2. 应用特征词分类贡献的垃圾邮件过滤研究[J]. 计算机工程与应用, 2012, 48(34): 116-119.
[4]	韩立毛1，鞠时光2，羊晶璟2. 个性化搜索引擎中网页特征描述的研究[J]. 计算机工程与应用, 2011, 47(11): 94-97.
[5]	陈建超1，胡桂武1，杨志华2，严桂夺3. 基于全局性确定聚类中心的文本聚类[J]. 计算机工程与应用, 2011, 47(10): 147-150.
[6]	王志晓张大陆刘雷姚传茂. 支持语义的P2P搜索研究[J]. 计算机工程与应用, 2007, 43(3): 8-8.
[7]	邓擘,樊孝忠. 使用特征词的统计分布信息进行文本分类[J]. 计算机工程与应用, 2006, 42(32): 0-.