基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题检测与跟踪。
推荐文章
基于 LSA和结构特性的微博话题检测
微博
话题检测
文本聚类
语义空间
潜在语义分析
孤立点预处理和 Single-Pass 聚类结合的微博话题检测方法
微博
热点话题
增量聚类
孤立点
话题检测
基于隐主题分析的中文微博话题发现
中文微博
话题发现
隐主题模型
文本聚类
频繁项集挖掘
基于评论树的微博社区热门话题检测方法
微博社区
热门话题
过滤
评论树
话题热度评价模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合时序和语义的中文微博话题检测与跟踪方法
来源期刊 网络与信息安全学报 学科 工学
关键词 微博文本 频繁词集 特征选择 聚类 话题检测 时序 语义
年,卷(期) 2016,(5) 所属期刊栏目 学术论文
研究方向 页码范围 21-29
页数 9页 分类号 TP301
字数 6621字 语种 中文
DOI 10.11959/j.issn.2096-109x.2016.00048
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 江颉 浙江工业大学计算机科学与技术学院 38 249 10.0 13.0
2 陈铁明 浙江工业大学计算机科学与技术学院 60 357 11.0 15.0
3 王小号 浙江工业大学计算机科学与技术学院 8 42 4.0 6.0
4 庞卫巍 浙江工业大学计算机科学与技术学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (190)
参考文献  (10)
节点文献
引证文献  (8)
同被引文献  (16)
二级引证文献  (7)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(7)
  • 参考文献(1)
  • 二级参考文献(6)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(7)
  • 参考文献(2)
  • 二级参考文献(5)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(8)
  • 引证文献(6)
  • 二级引证文献(2)
2019(4)
  • 引证文献(1)
  • 二级引证文献(3)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
微博文本
频繁词集
特征选择
聚类
话题检测
时序
语义
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络与信息安全学报
双月刊
2096-109X
10-1366/TP
16开
北京市丰台区成寿路11号邮电出版大厦8层
2015
chi
出版文献量(篇)
525
总下载数(次)
6
总被引数(次)
1380
论文1v1指导