基于HMM的柯尔克孜语词性标注的研究

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (15): 120-124.

• 数据库、数据挖掘、机器学习 • 上一篇下一篇

基于HMM的柯尔克孜语词性标注的研究

陈莉，古丽拉·阿东别克

新疆大学信息科学与工程学院，乌鲁木齐 830046

出版日期:2014-08-01 发布日期:2014-08-04

Research on Kirgiz language part of speech tagging based on HMM

CHEN Li, Gulila·ALTENBEK

College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

Online:2014-08-01 Published:2014-08-04

摘要/Abstract

摘要： 柯尔克孜语的语言信息处理研究，对新疆柯尔克孜族是否能跨入信息时代，传承民族文化起着至关重要的作用。采用两级标注法，基于传统的HMM理论，改进了HMM模型参数的计算、数据平滑和未登入词的处理方法，更好地体现了上下文依赖关系。同时，把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM，改进后的方法有效提高了准确性。

关键词: 柯尔克孜语, 自动分词词典, 隐马尔可夫模型（HMM）, 词性标注

Abstract: Research on the Kirghiz information processing plays an important role to whether Xinjiang Kirghiz can enter the information age, and inherit the national culture. Based on the traditional HMM theory, this paper uses the two stage dimension method and improves the HMM parameters calculation, data-smoothing and unknown words, so it can reflect the context dependence better. Meanwhile, stem extraction algorithm, which is based on automatic words segmentation dictionary, with rules and statistics method is used for the using of Kirghiz part-of-speech tagging system. Compared to traditional HMM, the improved method is effective to enhance accuracy.

Key words: Kirghiz, automatic words segmentation dictionary, Hidden Markov Model（HMM）, part-of-speech tagging

陈莉，古丽拉·阿东别克. 基于HMM的柯尔克孜语词性标注的研究[J]. 计算机工程与应用, 2014, 50(15): 120-124.

CHEN Li, Gulila·ALTENBEK. Research on Kirgiz language part of speech tagging based on HMM[J]. Computer Engineering and Applications, 2014, 50(15): 120-124.

[1]	吴楚田，陈永乐，陈俊杰. 多协议交叉的HMM协议异常检测算法[J]. 计算机工程与应用, 2020, 56(8): 81-86.
[2]	郇战，李晨，万彩艳，陈学杰. 基于步行加速度信息分割的人员识别[J]. 计算机工程与应用, 2019, 55(1): 203-209.
[3]	徐春1，2，3，杨勇4，蒋同海1. 基于机器翻译的维吾尔语形态分析研究[J]. 计算机工程与应用, 2017, 53(14): 138-142.
[4]	戈永侃，于凤芹. 后置滤波器参数自适应的语音合成改进算法[J]. 计算机工程与应用, 2017, 53(1): 168-171.
[5]	胡一帆，胡友彬，李骞，耿冬冬. 基于视频监控的人脸检测跟踪识别系统研究[J]. 计算机工程与应用, 2016, 52(21): 1-7.
[6]	姜芳1，2，李国和1，2，3，岳翔4，吴卫江1，2，3，洪云峰3，刘智渊3，程远3. 基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用, 2015, 51(6): 204-207.
[7]	陆志坚，吴艳霞，郭振华，孙延腾. 基于脉动阵列的HMMer加速系统[J]. 计算机工程与应用, 2013, 49(8): 76-80.
[8]	阙大顺1，田犇1，赵永安2. 基于FPGA的关键词识别系统实现[J]. 计算机工程与应用, 2013, 49(8): 217-221.
[9]	桑海岩1，2，古丽拉·阿东别克1，2，牛宁宁1，2. 基于最大熵的哈萨克语词性标注模型[J]. 计算机工程与应用, 2013, 49(11): 126-129.
[10]	尼加提·纳吉米1，2，买合木提·买买提3，吐尔根·依布拉音4. 基于N元模型的维吾尔语词性标注实验研究[J]. 计算机工程与应用, 2012, 48(25): 137-140.
[11]	程延伟，谢永成，李光升. 某种车辆电源系统故障诊断方法研究[J]. 计算机工程与应用, 2012, 48(1): 245-248.
[12]	侯呈风，古丽拉·阿东别克. 改进的HMM应用于哈萨克语词性标注[J]. 计算机工程与应用, 2010, 46(36): 147-149.
[13]	肖明，贾振红. 基于轮廓特征的HMM手写数字识别[J]. 计算机工程与应用, 2010, 46(33): 172-174.
[14]	王永生. 英汉机器翻译系统中的词性标注研究[J]. 计算机工程与应用, 2010, 46(20): 99-102.
[15]	刘艳,古丽拉·阿东别克,伊力亚尔. 哈萨克语词性自动标注研究初探[J]. 计算机工程与应用, 2008, 44(20): 242-244.

基于HMM的柯尔克孜语词性标注的研究

Research on Kirgiz language part of speech tagging based on HMM

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics