计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (12): 19-23.
阚明刚
KAN Minggang
摘要: 语篇中的话语标记在自然语言处理中逐渐得到重视。基于大规模语料库对话语标记进行自顶向下的梳理是该研究的目标。研究中构建了两个500万字次的语体语料库,利用UltraEdit等软件对话语标记进行提取和统计,对使用情况作了详细分析,发现话语标记并非只用于口语之中,每种语体都有自己的使用特色。在获得的话语标记的基础上,给出了在大规模语料库中提取算法并编程实现,减少了人工操作,提高了识别效率。