基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本分类是文本挖掘中最重要的研究内容之一.为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类.同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验.在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多.
推荐文章
基于非均衡局部敏感哈希的并行文本分类研究
KNN
非均衡局部敏感哈希
Hadoop
Spark
中文文本分类系统的设计与实现
文本分类
向量空间模型
特征项选择
权重
基于混合余弦相似度的中文文本层次关系挖掘
自然语言处理
层次关系
文本挖掘
混合余弦相似度
本体构建
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于余弦距离的局部敏感哈希的KNN算法在中文文本上的快速分类
来源期刊 计算机工程与科学 学科 工学
关键词 文本分类 局部敏感哈希 TF-IDF KNN 布尔向量
年,卷(期) 2015,(10) 所属期刊栏目 数据挖掘
研究方向 页码范围 1971-1976
页数 6页 分类号 TP181
字数 5049字 语种 中文
DOI 10.3969/j.issn.1007-130X.2015.10.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 戴上平 华中师范大学计算机学院 14 174 9.0 13.0
2 刘盛英杰 华中师范大学计算机学院 4 19 3.0 4.0
3 冯鹏 华中师范大学计算机学院 1 10 1.0 1.0
4 舒红 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (143)
参考文献  (5)
节点文献
引证文献  (10)
同被引文献  (19)
二级引证文献  (1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(5)
  • 引证文献(5)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
局部敏感哈希
TF-IDF
KNN
布尔向量
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导