基于词位的藏文黏写形式的切分

计算机工程与应用 ›› 2014, Vol. 50 ›› Issue (11): 218-222.

基于词位的藏文黏写形式的切分

康才畯1，龙从军2，3，江荻1，2

1.上海师范大学人文与传播学院，上海 200234
2.中国社科院民族研究所，北京 100081
3.中央民族大学民族语言监测分中心，北京 100081

出版日期:2014-06-01 发布日期:2015-04-08

Segmentation of Tibetan abbreviated forms based on word position

KANG Caijun1, LONG Congjun2，3, JIANG Di1，2

1.College of Humanities and Communications, Shanghai Normal University, Shanghai 200234, China
2.Institute of Ethnology & Anthropology, Chinese Academy of Social Sciences, Beijing 100081, China
3.National Languages Resource Monitoring & Research Center of Minority Language Branch, Minzu University of China, Beijing 100081, China

Online:2014-06-01 Published:2015-04-08

摘要/Abstract

摘要： 基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式，其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点，将常用的四词位扩充为六词位，再利用条件随机场模型作为标注建模工具来进行训练和测试，并根据规则对识别结果进行后处理。从实验结果来看，该方法有较高的识别正确率，具有进一步研究的价值。下一步的改进需要扩充训练语料，并对模型选用的特征集进行优化。

关键词: 藏文黏写形式, 词位, 条件随机场, 特征模板, 后处理

Abstract: The best feature of segmentation of Tibetan abbreviated forms based on word position is reducing the negative effects of unknown words. This article improves 4 word-position tag set to 6 word-position tag set to fit in with the characters of Tibetan, uses CRF as tagging model to train and test corpus data, then builds a rule base to post process the result data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the feature template.

Key words: Tibetan abbreviated forms, word position, Conditional Random Field（CRF）, feature template, post process

康才畯1，龙从军2，3，江荻1，2. 基于词位的藏文黏写形式的切分[J]. 计算机工程与应用, 2014, 50(11): 218-222.

KANG Caijun1, LONG Congjun2，3, JIANG Di1，2. Segmentation of Tibetan abbreviated forms based on word position[J]. Computer Engineering and Applications, 2014, 50(11): 218-222.

[1]	徐建国，刘泳慧，刘梦凡. 基于BILSTM-CRF的高校政策语义角色标注研究[J]. 计算机工程与应用, 2021, 57(6): 207-211.
[2]	秦博宇，郝晓燕，刘永芳. 基于SVM和CRF双层模型的FrameNet框架消歧[J]. 计算机工程与应用, 2021, 57(18): 255-262.
[3]	田梓函，李欣. 基于BERT-CRF模型的中文事件检测方法研究[J]. 计算机工程与应用, 2021, 57(11): 135-139.
[4]	汪瀛寰，薛婵，包先雨，吴共庆. 触发词与属性值对联合抽取方法研究[J]. 计算机工程与应用, 2020, 56(9): 168-174.
[5]	李博，康晓东，张华丽，王亚鸽，陈亚媛，白放. 采用Transformer-CRF的中文电子病历命名实体识别[J]. 计算机工程与应用, 2020, 56(5): 153-159.
[6]	刘小安，彭涛. 基于卷积神经网络的中文景点识别研究[J]. 计算机工程与应用, 2020, 56(4): 140-145.
[7]	马冬梅，贺三三，杨彩锋，严春满. 特征融合型卷积神经网络的语义分割[J]. 计算机工程与应用, 2020, 56(10): 193-198.
[8]	马建红，张炳斐，张少光，刘双耀. 基于主动MCNN-SCRF的新能源汽车命名实体识别[J]. 计算机工程与应用, 2019, 55(7): 23-29.
[9]	黄英来，刘亚檀，任洪娥. 基于全卷积神经网络的林木图像分割[J]. 计算机工程与应用, 2019, 55(4): 219-224.
[10]	姑丽加玛丽·麦麦提艾力1，艾斯卡尔·肉孜2，艾斯卡尔·艾木都拉3. 分层特征模板筛选的维吾尔语韵律边界预测[J]. 计算机工程与应用, 2017, 53(8): 250-253.
[11]	杜玉龙，李建增，张岩，范聪. 基于深度交叉CNN和免交互GrabCut的显著性检测[J]. 计算机工程与应用, 2017, 53(3): 32-40.
[12]	米晓莉，赵永刚，庄益夫. 协同目标性指导下的多图像联合分割算法[J]. 计算机工程与应用, 2017, 53(2): 181-187.
[13]	朱艳辉，刘璟，徐叶强，田海龙，马进. 基于条件随机场的中文领域分词研究[J]. 计算机工程与应用, 2016, 52(15): 97-100.
[14]	刘殷1，吕学强1，刘坤2. 条件随机场与多层算法模型的实体自动识别[J]. 计算机工程与应用, 2016, 52(11): 141-147.
[15]	史庆伟，郭朋亮. 基于LDA的条件随机场主题模型研究[J]. 计算机工程与应用, 2015, 51(7): 131-135.