基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。
推荐文章
基于LDA和word2vec的英文作文跑题检测
作文跑题检测
向量空间模型
潜在狄利克雷分配
词语间语义关系
基于word2vec的数字图书馆本体构建技术研究
本体构建
领域本体
概念抽取
关系抽取
数字图书馆现状
基于word2vec和双向LSTM的情感分类深度模型
文本分类
情感分析
双向长短时记忆循环神经网络
词向量
社交网络
基于混合聚类的中文词聚类
词聚类
层次聚类
概念聚类
混合聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 利用word2vec对中文词进行聚类的研究
来源期刊 软件 学科 工学
关键词 数据挖掘 聚类 分词 词向量 神经网络
年,卷(期) 2013,(12) 所属期刊栏目 理论计算机科学
研究方向 页码范围 160-162
页数 3页 分类号 TP39
字数 2927字 语种 中文
DOI 10.3969/j.issn.1003-6970.2013.12.040
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐鹏 北京邮电大学网络技术研究院 33 433 11.0 20.0
2 郑文超 北京邮电大学网络技术研究院 1 66 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (112)
参考文献  (1)
节点文献
引证文献  (66)
同被引文献  (106)
二级引证文献  (160)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(26)
  • 引证文献(15)
  • 二级引证文献(11)
2016(38)
  • 引证文献(15)
  • 二级引证文献(23)
2017(41)
  • 引证文献(13)
  • 二级引证文献(28)
2018(53)
  • 引证文献(9)
  • 二级引证文献(44)
2019(56)
  • 引证文献(9)
  • 二级引证文献(47)
2020(10)
  • 引证文献(3)
  • 二级引证文献(7)
研究主题发展历程
节点文献
数据挖掘
聚类
分词
词向量
神经网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
总被引数(次)
23629
论文1v1指导