摘要: 检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
袁津生,荣元媛. 改进后缀树的中文检索结果聚类研究[J]. 计算机工程与应用, 2014, 50(21): 143-146.
YUAN Jinsheng, RONG Yuanyuan. Chinese search results cluster research based on improved STC[J]. Computer Engineering and Applications, 2014, 50(21): 143-146.