基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题.首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间.聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现.
推荐文章
基于 HowNet词汇相关性的文本聚类
知网
词汇相关性
Z分数
义原
孤立点
聚类
基于深度信念网络的K-means聚类算法研究
K-means算法
深度信念网络
受限玻尔兹曼机
高维数据
聚类分析
FCM算法
基于主题概念聚类的中文文本聚类
中文文本聚类
HowNet
主题概念
Chmeleon算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 深度词汇网络学习的文本聚类研究
来源期刊 北京化工大学学报(自然科学版) 学科 工学
关键词 词汇网络 深度学习网络 中文文本聚类
年,卷(期) 2015,(2) 所属期刊栏目 机电工程和信息科学
研究方向 页码范围 107-112
页数 6页 分类号 TP391
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 易军凯 44 107 6.0 7.0
2 万静 23 66 4.0 7.0
3 冯佳明 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (452)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(4)
  • 参考文献(2)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词汇网络
深度学习网络
中文文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京化工大学学报(自然科学版)
双月刊
1671-4628
11-4755/TQ
16开
北京市北三环东路15号
82-657
1972
chi
出版文献量(篇)
3271
总下载数(次)
7
总被引数(次)
27609
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导