摘要: 文本分类技术对处理海量的生物医学文献起着重要的作用。TREC(The Text Retrieval Conference)2005 genomics track的测评结果显示,支持向量机(Surport Vector Machine, SVM)在生物医学文本分类问题上,比其他模型具有明显的优势。本文在TREC的测评语料上,使用简单向量距离分类法与SVM进行比较,同时讨论了使用命名实体识别的预处理对不同算法的影响。得出结论:简单向量距离分类法在该领域的效果与SVM不相上下,并且命名实体识别会使结果有一定提高。