作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理.首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义.因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性.利用TF-IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理.利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类.
推荐文章
基于DBSCAN算法的告警数据聚类研究
告警数据分析
多约束条件
DBSCAN算法
滑动时间窗口法
基于区域划分的DBSCAN多密度聚类算法
区域划分
多密度
相对密度差
DBSCAN聚类
基于相对密度的多耦合文本聚类算法
文本聚类
空间向量模型
相对密度
文本相似度
核心对象
基于优化密度的耦合空间LDA文本聚类算法研究
文本聚类
耦合空间模型
LDA主题模型
密度
阈值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于DBSCAN算法的文本聚类研究
来源期刊 软件导刊 学科 工学
关键词 文本聚类 DBSCAN聚类 文本相似度 文本处理
年,卷(期) 2016,(8) 所属期刊栏目 算法与语言
研究方向 页码范围 36-38
页数 3页 分类号 TP312
字数 2155字 语种 中文
DOI 10.11907/rjdk.161915
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邹艳春 江西财经大学软件与通信学院 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (11)
参考文献  (4)
节点文献
引证文献  (10)
同被引文献  (33)
二级引证文献  (1)
1971(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本聚类
DBSCAN聚类
文本相似度
文本处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
总被引数(次)
30383
论文1v1指导