计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (33): 1-3.
余祖波1,高庆狮1,2,马建军1
YU Zu-bo1,GAO Qing-shi1,2,MA Jian-jun1
摘要: 在对大规模姓名样本库统计的基础上,研究了各种中文人名的姓氏、名字用字规律,并通过对大规模语料库的统计分析,得到了每个姓氏用字在真实文本中用作真实姓氏的概率及其上下文规律;针对汉族人名和少数民族人名及音译人名,分别提出了多级姓氏阈值和多级首字阈值的概念,并使用3σ法则确定阈值。实验结果表明,基于多级阈值的中文人名识别模型是有效的。