针对标记数据不足的数据流分类器

计算机工程与应用 ›› 2015, Vol. 51 ›› Issue (6): 124-128.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

针对标记数据不足的数据流分类器

熊忠阳，周兴勤，张玉芳

重庆大学计算机学院，重庆 400030

出版日期:2015-03-15 发布日期:2015-03-13

Data stream classifier with limited labelled data

XIONG Zhongyang, ZHOU Xingqin, ZHANG Yufang

School of Computer Science, Chongqing University, Chongqing 400030, China

Online:2015-03-15 Published:2015-03-13

摘要/Abstract

摘要： 大部分数据流分类算法解决了数据流无限长度和概念漂移这两个问题。但是，这些算法需要人工专家将全部实例都标记好作为训练集来训练分类器，这在数据流高速到达并需要快速分类的环境中是不现实的，因为标记实例需要时间和成本。此时，如果采用监督学习的方法来训练分类器，由于标记数据稀少将得到一个弱分类器。提出一种基于主动学习的数据流分类算法，该算法通过选择全部实例中的一小部分来人工标记，其中这小部分实例是分类置信度较低的样本，从而可以极大地减少需要人工标记的实例数量。实验结果表明，该算法可以在数据流存在概念漂移情况下，使用较少的标记数据对数据流训练出分类器，并且分类效果良好。

关键词: 数据流, 分类, 概念漂移, 主动学习

Abstract: Most algorithms for data streams have addressed the problems of infinite length and concept drifting. However, These algorithms need all instances to be labelled by human experts and then they use them as training set to get a classifier. It is impractical in a high-speed data stream environment because labelling instances are both time consuming and costly. Then if just using supervised learning method to train a classifier, a small number of labelled instances will get a poor classifier. This paper proposes a classification algorithm for data stream based on active learning. The method selects a small part of instances to be labelled, which have low confidence when classifying. Thus the number of instances needed to be labeled is greatly reduced. The experimental results show that the proposed method can use a small number of labelled data to classify the concept-drifting data streams correctly.

Key words: data streams, classification, concept drifting, active learning

熊忠阳，周兴勤，张玉芳. 针对标记数据不足的数据流分类器[J]. 计算机工程与应用, 2015, 51(6): 124-128.

XIONG Zhongyang, ZHOU Xingqin, ZHANG Yufang. Data stream classifier with limited labelled data[J]. Computer Engineering and Applications, 2015, 51(6): 124-128.

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	61

	来源	本网站

	次数	61
	比例	100%

摘要

133

最新录用	在线预览	正式出版

2	0	131

	来源	本网站

	次数	133
	比例	100%

[1]	王永贵，李倩玉. 基于KNN-GBDT的混合协同过滤推荐算法[J]. 计算机工程与应用, 2021, 57(9): 103-108.
[2]	杨春霞，李欣栩，吴佳君，刘天宇. 基于注意力交互机制的层次网络情感分类[J]. 计算机工程与应用, 2021, 57(9): 134-139.
[3]	张韩钰，吴志昊，徐勇，陈斌. 增强卷积神经网络的人脸篡改检测方法[J]. 计算机工程与应用, 2021, 57(8): 220-224.
[4]	李俊丽. Spark平台下类别数据互信息计算的并行化[J]. 计算机工程与应用, 2021, 57(7): 95-100.
[5]	韩卫宇，程龙生. 结合马田系统-SVM的滚动轴承故障模式分类研究[J]. 计算机工程与应用, 2021, 57(6): 239-246.
[6]	霍光煜，张勇，孙艳丰，尹宝才. 基于语义的档案数据智能分类方法研究[J]. 计算机工程与应用, 2021, 57(6): 247-253.
[7]	韩东方，吐尔地·托合提，艾斯卡尔·艾木都拉. 问答系统中问句分类方法研究综述[J]. 计算机工程与应用, 2021, 57(6): 10-21.
[8]	黄金杰，蔺江全，何勇军，何瑾洁，王雅君. 局部语义与上下文关系的中文短文本分类算法[J]. 计算机工程与应用, 2021, 57(6): 94-100.
[9]	李硕，梁毅. 面向Spark的批处理应用执行时间预测模型[J]. 计算机工程与应用, 2021, 57(5): 79-87.
[10]	王凤琴，柯亨进. 卷积神经网络及其分析在抑郁症判别中的应用[J]. 计算机工程与应用, 2021, 57(5): 245-250.
[11]	万亚玲，钟锡武，刘慧，钱育蓉. 卷积神经网络在高光谱图像分类中的应用综述[J]. 计算机工程与应用, 2021, 57(4): 1-10.
[12]	陶体伟，刘明霞，王明亮，王琳琳，杨德运，张强. 基于有效距离的低秩表示[J]. 计算机工程与应用, 2021, 57(4): 141-147.
[13]	郑诚，董春阳，黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
[14]	佘海龙，解山娟，邹静洁. 标准分数降维的3D-CNN高光谱遥感图像分类[J]. 计算机工程与应用, 2021, 57(4): 169-175.
[15]	于多，黄永东. 基于SPCA和域变换递归滤波的高光谱图像分类[J]. 计算机工程与应用, 2021, 57(4): 199-208.

针对标记数据不足的数据流分类器

Data stream classifier with limited labelled data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics