话语标记的计量与自动过滤提取

计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (12): 19-23.

话语标记的计量与自动过滤提取

阚明刚

中国传媒大学文学院，国家语言资源监测与研究中心有声媒体语言分中心，北京 100024

出版日期:2012-04-21 发布日期:2012-04-20

Statistics and auto-retrieving of discourse markers

KAN Minggang

School of Arts, China Broadcast Media Language Monitor and Research Branch, Communication University of China, Beijing 100024, China

Online:2012-04-21 Published:2012-04-20

摘要/Abstract

摘要： 语篇中的话语标记在自然语言处理中逐渐得到重视。基于大规模语料库对话语标记进行自顶向下的梳理是该研究的目标。研究中构建了两个500万字次的语体语料库，利用UltraEdit等软件对话语标记进行提取和统计，对使用情况作了详细分析，发现话语标记并非只用于口语之中，每种语体都有自己的使用特色。在获得的话语标记的基础上，给出了在大规模语料库中提取算法并编程实现，减少了人工操作，提高了识别效率。

关键词: 机助, 话语标记, 计量, 过滤

Abstract: Discourse Markers（DMs） are paid more attention in the field of natural language processing recently. The target of this research is to comb DMs top-down based on large-scale corpus. Two genre corpuses are built, each with a scale of 5 million characters. Several pieces of software, such like UltraEdit, are applied to retrieving and calculating. After the use situations are analyzed in detail, it is found that DMs are not used only in oral discourse and each genre has its own use traits. An algorithm is given and realized through C#, and a test shows it is effective.

Key words: computer-assisted, Discourse Markers（DMs）, calculation, filtration

阚明刚. 话语标记的计量与自动过滤提取[J]. 计算机工程与应用, 2012, 48(12): 19-23.

KAN Minggang. Statistics and auto-retrieving of discourse markers[J]. Computer Engineering and Applications, 2012, 48(12): 19-23.

[1]	张岐山，陈露露. 基于均衡接近度灰关联的Slope One算法[J]. 计算机工程与应用, 2021, 57(9): 96-102.
[2]	王永贵，李倩玉. 基于KNN-GBDT的混合协同过滤推荐算法[J]. 计算机工程与应用, 2021, 57(9): 103-108.
[3]	彭昭勇，伍权，陈华伟，郑跃，王书祥. 基于文献计量的机器视觉缺陷检测研究述评[J]. 计算机工程与应用, 2021, 57(4): 28-34.
[4]	明建华，胡创，周建政，姚金良. 针对直播弹幕的TextCNN过滤模型[J]. 计算机工程与应用, 2021, 57(3): 162-167.
[5]	田维安，陈红梅，周丽华. 基于相似用户好奇心的多样性推荐方法[J]. 计算机工程与应用, 2021, 57(23): 113-121.
[6]	吴昊，徐行健，孟繁军. 课程资源的融合知识图谱多任务特征推荐算法[J]. 计算机工程与应用, 2021, 57(21): 132-139.
[7]	王永，赵旭辉，李晓光，肖玲. 一种面向协同过滤的快速最近邻居搜索方法[J]. 计算机工程与应用, 2021, 57(17): 96-105.
[8]	郑诚，王建. 联合注意力和自编码器的协同过滤推荐[J]. 计算机工程与应用, 2021, 57(10): 139-145.
[9]	孙连山，陈秀婷，马胜天. 基于不确定使用边的间接依赖过滤方法[J]. 计算机工程与应用, 2021, 57(1): 126-133.
[10]	陆航，师智斌，刘忠宝. 融合用户兴趣和评分差异的协同过滤推荐算法[J]. 计算机工程与应用, 2020, 56(7): 24-29.
[11]	王卫红，曾英杰. 基于聚类和用户偏好的协同过滤推荐算法[J]. 计算机工程与应用, 2020, 56(3): 68-73.
[12]	顾明星，黄伟建，黄远，生龙，申超，张梦甜. 结合用户聚类与改进用户相似性的协同过滤推荐[J]. 计算机工程与应用, 2020, 56(22): 185-190.
[13]	纪文璐，王海龙，苏贵斌，柳林. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 33-41.
[14]	王永贵，郭昕彤. SparkSql上自适应数据集的高效频繁集挖掘算法[J]. 计算机工程与应用, 2020, 56(21): 72-78.
[15]	李浩，张亚钏，康雁，杨兵，卜荣景，李晋源. 融合循环知识图谱和协同过滤电影推荐算法[J]. 计算机工程与应用, 2020, 56(2): 106-114.