计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (17): 143-147.
赵友桥1,张山山1,路松峰1,吴志杰2
ZHAO Youqiao1, ZHANG Shanshan1, LU Songfeng1, WU Zhijie2
摘要: 针对当前常用的XML压缩算法没有考虑中文特点的情况,结合中文与XML的特点,提出一种高压缩率的适合中文XML文档的压缩算法COX。利用中文分词技术对XML文档进行分词处理,通过统计词频后获得排序的词典,利用Huffman编码思想对高频及长词汇进行压缩编码;解析XML文档后,把文档元素进行分类,同一类型的元素放入同一容器之中;算法还特别针对数字类型的数据进行了特殊处理。实验结果显示,相对于通用的压缩软件,COX具有更好的压缩效果,但压缩和解压缩时间要慢一些。