计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (5): 70-76.

• 理论研究、研发设计 • 上一篇    下一篇

基于主题的文档与代码间关联关系的提取研究

许冶冰,刘  超   

  1. 北京航空航天大学 计算机学院,北京 100191
  • 出版日期:2013-03-01 发布日期:2013-03-14

Research on retrieval methods for traceability between Chinese documentation and source code based on LDA

XU Yebing, LIU Chao   

  1. School of Computer Science and Engineering, Beihang University, Beijing 100191, China
  • Online:2013-03-01 Published:2013-03-14

摘要: 软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。

关键词: 可追踪链, 主题模型, 隐含狄利克雷分配(LDA), 逆向工程

Abstract: In order to establish traceability between Chinese documentations and source codes more effectively, this paper proposes one method based on LDA model. It names the topic word-based Traceability Retrieval Method(TRM) in which the topic words are extracted according to Shannon information. Experimental result shows that, compared with the LSI method, the topic word method can increase the recall and precision from 2% to 5%.

Key words: traceability recovery, topic model, Latent Dirichlet Allocation(LDA), reverse engineering