计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (29): 25-27.DOI: 10.3778/j.issn.1002-8331.2009.29.007
黄 伟1,2,刘海涛2
HUANG Wei1,2,LIU Hai-tao2
摘要: 提出了将语言计量研究成果应用于文本聚类研究的方法。通过两个50万词的语料样本发现了在现代汉语口语体和书面语体中具有显著分布差异的16个语言结构特征;以其中7个作为文本表示特征准确地将实验文本聚类为口语体(相似度89.84%)和书面语体(相似度86.93%)两类。以语言结构的计量特征表示文本的方法加强了聚类/分类研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语体特征计量研究是汉语语体描写研究的重要方法,阐述了其理论基础。
中图分类号: