河北大学学报(自然科学版) ›› 2014, Vol. 34 ›› Issue (3): 307-311.DOI: 10.3969/j.issn.1000-1565.2014.03.017

• • 上一篇    下一篇

基于主题本体扩展特征的短文本分类

湛燕,陈昊   

  1. 河北大学数学与计算机学院,河北省机器学习与计算智能重点实验室,河北保定071002
  • 出版日期:2014-05-25 发布日期:2014-05-25
  • 基金资助:
    国家自然科学基金资助项目,河北省自然科学基金资助项目,河北大学自然科学研究计划青年基金资助项目,河北省软科学研究计划项目

Short text categorization based on theme ontology feature extended

ZHAN Yan,CHEN Hao   

  • Online:2014-05-25 Published:2014-05-25

摘要: 短文本具有不同于普通文本的独有特点,例如文本长度较短,特征选择分散不一,这使得短文本文类需要处理这些特殊的问题.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.同时,通过GC(扩展能力)算法使用了案例维护学习,在K-近邻算法中减少样例个数,从而可以提高搜索近邻样例的效率.数值型实验证明了这种学习算法的有效性.

关键词: 短文本分类, 主题本体, 案例维护

Key words: short text categorization, theme ontology, case-base maintenance

中图分类号: