用于文本分类的快速KNN算法

doi:10.3969/j.issn.1000-1565.2008.03.023

河北大学学报(自然科学版) ›› 2008, Vol. 28 ›› Issue (3): 322-326.DOI: 10.3969/j.issn.1000-1565.2008.03.023

用于文本分类的快速KNN算法

刘海博,郗亚辉,王煜

河北大学,数学与计算机学院,河北,保定 071002

出版日期:2008-05-25 发布日期:2008-05-25

A Fast KNN for Text Categorization

LIU Hai-bo,XI Ya-hui,WANG Yu

Online:2008-05-25 Published:2008-05-25

摘要/Abstract

摘要： KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.

中图分类号:

TP391

刘海博,郗亚辉,王煜. 用于文本分类的快速KNN算法[J]. 河北大学学报(自然科学版), 2008, 28(3): 322-326.

LIU Hai-bo,XI Ya-hui,WANG Yu. A Fast KNN for Text Categorization[J]. Journal of Hebei University (Natural Science Edition), 2008, 28(3): 322-326.

[1]	何丹丹,吴树芳,徐建民. 基于文档关系改进的向量空间模型[J]. 河北大学学报(自然科学版), 2020, 40(3): 322-327.
[2]	李昆仑,戎静月,苏华仃. 一种改进的协同过滤推荐算法[J]. 河北大学学报(自然科学版), 2020, 40(1): 77-86.
[3]	刘佩鑫,于洪志,徐涛. 基于朴素贝叶斯的档案分类研究[J]. 河北大学学报(自然科学版), 2018, 38(5): 549-554.
[4]	张锡忠,徐建民. 基于术语同义关系的文档相似度研究[J]. 河北大学学报(自然科学版), 2017, 37(1): 108-112.
[5]	徐建民,李腾飞,吴树芳. 一种基于用户交互行为的微博社区发现方法[J]. 河北大学学报(自然科学版), 2016, 36(2): 189-196.
[6]	刘庆,王昌. 基于Vague软集相似度量的快速估算模型[J]. 河北大学学报(自然科学版), 2014, 34(5): 460-466,474.
[7]	湛燕,陈昊. 基于主题本体扩展特征的短文本分类[J]. 河北大学学报(自然科学版), 2014, 34(3): 307-311.
[8]	田大增,崔玮,哈明虎,高林庆. 基于相似度的模糊粗糙近似算子[J]. 河北大学学报(自然科学版), 2008, 28(1): 92-95.
[9]	梁宏胜,徐建民,成岳鹏. 一种改进的朴素贝叶斯文本分类方法[J]. 河北大学学报(自然科学版), 2007, 27(3): 327-331.
[10]	王煜,张明,马力. 基于词条聚合和决策树的文本分类方法[J]. 河北大学学报(自然科学版), 2005, 25(3): 338-342.
[11]	吴志峰,田学东. 人名、机构名在基于概念的文本分类中的应用研究[J]. 河北大学学报(自然科学版), 2004, 24(6): 657-661.
[12]	湛燕,陈昊,袁方,王丽娟. 文本挖掘研究进展[J]. 河北大学学报(自然科学版), 2003, 23(2): 221-226.

用于文本分类的快速KNN算法

A Fast KNN for Text Categorization

PDF (PC)

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价