一种基于最少出现文档频的文本特征提取方法

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (10): 164-166.

• 数据库、信号与信息处理 • 上一篇下一篇

一种基于最少出现文档频的文本特征提取方法

苏丹，周明全，王学松，任玉芝

北京师范大学信息科学与技术学院，北京 100875

出版日期:2012-04-01 发布日期:2012-04-11

Method based on least document frequency for text feature extraction

SU Dan, ZHOU Mingquan, WANG Xuesong, REN Yuzhi

College of Information Science and Technology, Beijing Normal University, Beijing 100875, China

Online:2012-04-01 Published:2012-04-11

摘要/Abstract

摘要： 传统特征提取改进方法在特征分布信息的量化方面存在不足，很大程度上影响了其分类效能。针对这一问题，提出一种基于最少出现文档频的特征提取改进方法，即TF-LDF算法。该算法用最少出现文档频来量化特征类间集中度与类内离散度，能够更加准确地反映特征分布情况。通过实验结果比较，可以证明TF-LDF算法分类效果更佳。

关键词: 特征提取, 特征分布, 类间集中度, 类内离散度, 文档-最少出现文档频率（TF-LDF）

Abstract: Conventional methods of text feature extraction are inadequate at distribution quantification, which to a large extent affects the efficiency of classification. Aiming at this problem, a scheme of Least Document Frequency（LDF） is proposed, which can quantify the concentration and dispersion among feature classes through LDF, thus can reflect the characteristics of the distribution more accurately. Through experiments, TF-LDF algorithm can acquire a better result.

Key words: feature extraction, feature distribution, concentration among classes, dispersion within class, Term Frequency-Least Document Frequency（TF-LDF）

苏丹，周明全，王学松，任玉芝. 一种基于最少出现文档频的文本特征提取方法[J]. 计算机工程与应用, 2012, 48(10): 164-166.

SU Dan, ZHOU Mingquan, WANG Xuesong, REN Yuzhi. Method based on least document frequency for text feature extraction[J]. Computer Engineering and Applications, 2012, 48(10): 164-166.

[1]	包志强，邢瑜，吕少卿，黄琼丹. 改进YOLO V2的6D目标姿态估计算法[J]. 计算机工程与应用, 2021, 57(9): 148-153.
[2]	许德刚，王露，李凡. 深度学习的典型目标检测算法研究综述[J]. 计算机工程与应用, 2021, 57(8): 10-25.
[3]	胡文涛，陈秀宏. 基于邻域图的低秩投影学习[J]. 计算机工程与应用, 2021, 57(7): 209-214.
[4]	张晓丽，张魁星，江梅，魏本征，丛金玉. 淋巴瘤图像分类技术研究综述[J]. 计算机工程与应用, 2021, 57(6): 1-9.
[5]	熊健，覃仁超，何梦乙，刘建兰，唐风扬. 改进随机森林在Android恶意软件检测中的应用[J]. 计算机工程与应用, 2021, 57(3): 130-136.
[6]	李龙龙，何东健，王美丽. 基于改进型LBP算法的植物叶片图像识别研究[J]. 计算机工程与应用, 2021, 57(19): 228-234.
[7]	李杰，李苗，袁细国. 面向新一代测序数据的病原微生物检测算法[J]. 计算机工程与应用, 2021, 57(19): 282-289.
[8]	郭恒光，刘文彪，余仁波. 用于形状特征提取的spike函数[J]. 计算机工程与应用, 2021, 57(18): 220-226.
[9]	李振强，王树才，赵世达，白宇. 改进DeepLabv3+和XGBoost的羊骨架切割方法[J]. 计算机工程与应用, 2021, 57(18): 263-269.
[10]	刘星辰，贾俊铖，张莉，胡沁涵. 图像超分辨率特征浓缩网络[J]. 计算机工程与应用, 2021, 57(16): 213-219.
[11]	光睿智，安博文，潘胜达. 基于无锚框网络的航拍航道船舶检测算法[J]. 计算机工程与应用, 2021, 57(15): 251-258.
[12]	周小静，陈俊洪，杨振国，刘文印. 基于手势特征融合的操作动作识别[J]. 计算机工程与应用, 2021, 57(14): 169-175.
[13]	岳琪，徐忠亮，郭继峰. 面向混合乐器音乐分析的稀疏特征提取方法[J]. 计算机工程与应用, 2021, 57(14): 181-186.
[14]	谌贵辉，陈伍，李忠兵，易欣，刘会康，韩春阳. 残差卷积注意网络的图像超分辨率重建[J]. 计算机工程与应用, 2021, 57(12): 193-200.
[15]	郑淋文，周金治，黄静. 深度稀疏自编码器在ECG特征提取中的应用[J]. 计算机工程与应用, 2021, 57(11): 156-161.

一种基于最少出现文档频的文本特征提取方法

Method based on least document frequency for text feature extraction

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics