摘要: 本文提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。
刘佳宾 陈超 正荣 吉翔华. 基于机器学习的科技文摘关键词自动提取方法[J]. 计算机工程与应用, 2007, 43(14): 170-172.
JiaBin Liu. Automatic Extraction of Keyphrases from Scientific Articles based on machine learning method[J]. Computer Engineering and Applications, 2007, 43(14): 170-172.