Web新闻语料分词和标注错误分析

计算机工程与应用 ›› 2007, Vol. 43 ›› Issue (15): 166-169.

Web新闻语料分词和标注错误分析

张永奎^1，2，张彦^1，2，安增波³，刘睿^1，2

1.山西大学计算机与信息技术学院，太原 030006
2.计算智能与中文信息处理省部共建教育部重点实验室，太原 030006
3.中国人民解放军91708部队自动化工作站，广州 510320

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-05-21 发布日期:2007-05-21
通讯作者: 张永奎

Analysis of inaccurate style in processing Web true news text——about word segmentation and part of speech tagging

ZHANG Yong-kui^1，2，ZHANG Yan^1，2，AN Zeng-bo³，LIU Rui^1，2

1.Department of Computer & Information Technology，Shanxi University，Taiyuan 030006，China
2.Key Laboratory of Ministry of Education for Computation Intelligence and Chinese Information Processing，Taiyuan 030006，China
3.Workstation Automation of 91708 PLA，Guangzhou 510320，China

Received:1900-01-01 Revised:1900-01-01 Online:2007-05-21 Published:2007-05-21
Contact: ZHANG Yong-kui

摘要/Abstract

摘要： 通过分析Web突发事件语料库文本的加工统计得出11类错误类型，并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用，而且对中文的自动校对方法，提供一定的借鉴。

关键词: 中文信息处理, 分词, 词性标注, 错误类型, Web突发事件新闻语料库

Abstract: Eleven inaccurate styles are obtained through analyzing the processing of Web accidental news text，we propose resolvent for some styles.This not only illuminates the improvement of word segmentation and part of speech tagging methods in early process of corpora，but also provides references to automatic check，another branch of Chinese information processing.

Key words: Chinese information processing, word segmentation, part of speech tagging, inaccurate style, Web accidental news corpora

张永奎^1，2，张彦^1，2，安增波³，刘睿^1，2. Web新闻语料分词和标注错误分析[J]. 计算机工程与应用, 2007, 43(15): 166-169.

ZHANG Yong-kui^1，2，ZHANG Yan^1，2，AN Zeng-bo³，LIU Rui^1，2. Analysis of inaccurate style in processing Web true news text——about word segmentation and part of speech tagging[J]. Computer Engineering and Applications, 2007, 43(15): 166-169.

[1]	涂文博，袁贞明，俞凯. 无池化层卷积神经网络的中文分词方法[J]. 计算机工程与应用, 2020, 56(2): 120-126.
[2]	依沙·吾阿提别克，阿里甫·库尔班，郝子煜，周雷，吕情深. 聋哑学校语文辅助教学系统研究[J]. 计算机工程与应用, 2020, 56(11): 225-229.
[3]	刘晨晖，张德生，胡钢. 基于TAKE的中文关键短语提取算法研究[J]. 计算机工程与应用, 2020, 56(10): 115-121.
[4]	孙宝山，李玮. 窥视孔连接的循环网络在中文分词上的研究[J]. 计算机工程与应用, 2019, 55(19): 160-165.
[5]	纪明宇，王晨龙，安翔，牟伟晔. 面向智能客服的句子相似度计算方法[J]. 计算机工程与应用, 2019, 55(13): 123-128.
[6]	成于思1，施云涛2. 面向专业领域的中文分词方法[J]. 计算机工程与应用, 2018, 54(17): 30-34.
[7]	张绍阳，曹家波，王子凡，曲卫东. 基于加权二部图匹配的中文段落相似度计算[J]. 计算机工程与应用, 2017, 53(18): 95-101.
[8]	徐春1，2，3，杨勇4，蒋同海1. 基于机器翻译的维吾尔语形态分析研究[J]. 计算机工程与应用, 2017, 53(14): 138-142.
[9]	赵卫锋1，2，张勤1. 非结构化中文自然语言地址描述的自动识别[J]. 计算机工程与应用, 2016, 52(23): 19-24.
[10]	朱艳辉，刘璟，徐叶强，田海龙，马进. 基于条件随机场的中文领域分词研究[J]. 计算机工程与应用, 2016, 52(15): 97-100.
[11]	刘殷1，吕学强1，刘坤2. 条件随机场与多层算法模型的实体自动识别[J]. 计算机工程与应用, 2016, 52(11): 141-147.
[12]	胡金柱1，舒江波2，胡泉3，李源1，杨进才1，谢芳4. 复句关系词自动识别中规则的表示方法研究[J]. 计算机工程与应用, 2016, 52(1): 127-132.
[13]	姜芳1，2，李国和1，2，3，岳翔4，吴卫江1，2，3，洪云峰3，刘智渊3，程远3. 基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用, 2015, 51(6): 204-207.
[14]	吴培昊，徐金安，张玉洁. 面向短语统计机器翻译的汉日联合分词研究[J]. 计算机工程与应用, 2015, 51(5): 116-120.
[15]	周俊1，3，郑中华2，张炜3. 基于改进最大匹配算法的中文分词粗分方法[J]. 计算机工程与应用, 2014, 50(2): 124-128.