计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (19): 114-121.DOI: 10.3778/j.issn.1002-8331.1706-0190
依不拉音·吾斯曼1,张绍武2,于 凯1
Yibulayin·WUSIMAN1, ZHANG Shaowu2, YU Kai1
摘要: 近年来,随着互联网技术在新疆地区的发展和普及、微信、QQ、论坛、微博等网络交流逐渐成为新疆人民日常交流的主要方式。由于历史和地理原因,网络平台上的维吾尔语言呈现传统维文、拉丁维文、西里尔维文等多种字母体系共存的“一语多文”的特点。由于这些文字缺乏科学的对应标准、互相转换的工具等原因,造成实际使用中存在很多问题,给维吾尔网民的日常互联网使用及“一带一路”沿线国家间和居民间的沟通和交流带来不便。为此首先研究传统维文、拉丁维文及西里尔维文之间的渊源,以及三种字母目前的对应标准存在的问题和转换规则。借此提出三种字母之间的Unicode字符编码转换算法,以期解决国内外维吾尔人间的在线文字交流困难的问题,进而实现维文搜索引擎系统中使用后两种文字的信息检索。通过实验验证了所提的LUTC和CUTC转换算法的字符编码转换效率有明显提升,拉丁维文和西里尔维文的信息检索效果与传统维文一致。