基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰.本文将语义相似度大的微博聚类以方便用户浏览.主要研究工作如下:1.使用python中的jieba分词对个人微博进行分词预处理并去除停用词;2.将分词数据集利用CBOW模型训练词语向量;3.用词语向量表示个人微博句子向量;4.个人微博句子向量表示成空间中的分布点,使用改进的曼哈顿句子算法计算距离即个人微博间的相似度.5.使用改进的clarans算法聚类.实验表明本文的方法与传统聚类算法如划分法、层次法、密度法等有明显的提高.
推荐文章
基于SOM聚类的微博话题发现
话题发现
词向量模型
文本相似度
短文本
SOM聚类
聚类算法在高校学生微博的应用研究
聚类算法
热门话题
微博
高校
文本
算法改进
基于MFIHC聚类和TOPSIS的微博热点发现方法
网络舆情
TOPSIS
热点发现
聚类
微博
基于知网的个人微博语义相关度的聚类研究
个人微博
知网
语义
聚类
消歧
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于CBOW模型的个人微博聚类研究
来源期刊 电脑与电信 学科 工学
关键词 个人微博 语义 聚类 机器学习
年,卷(期) 2018,(4) 所属期刊栏目 应用技术与研究
研究方向 页码范围 69-72
页数 4页 分类号 TP391
字数 3122字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 宋添树 内蒙古科技大学信息工程学院 3 2 1.0 1.0
2 李江宇 内蒙古科技大学信息工程学院 3 2 1.0 1.0
3 张沁哲 内蒙古科技大学信息工程学院 3 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (53)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
个人微博
语义
聚类
机器学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑与电信
月刊
1008-6609
44-1606/TN
大16开
广州市连新路171号国际科技中心B108室
1995
chi
出版文献量(篇)
8962
总下载数(次)
13
总被引数(次)
9565
论文1v1指导