摘要: 已有的中文指代消解系统研究大多是基于有监督的机器学习方法,训练集中正负例的比值直接影响到分类器模型,进而影响指代消解结果。针对如何选取训练集正负例比值的问题,实现了一个中文指代消解系统,提出了训练数据正负例比值与指代消解系统评测结果之间的数学模型,并引入一种改进的遗传算法计算训练数据最优比值,使系统评测结果最优。在ACE 2005中文语料上的实验表明,改进的遗传算法更适合指代消解任务,适当增大负例的比值能够提高指代消解系统的性能。
颜 晗,刘 娟,周炫余. 面向中文指代消解的最优样本比例研究[J]. 计算机工程与应用, 2016, 52(17): 140-145.
YAN Han, LIU Juan, ZHOU Xuanyu. Optimal proportion of training data for Chinese coreference resolution[J]. Computer Engineering and Applications, 2016, 52(17): 140-145.