原文服务方: 计算机应用研究       
摘要:
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题.提出了一个融合词共现与加权GN (CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法.采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验.实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means.此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题.
推荐文章
基于教学评价的中文短文本情感分析
教学评价
词典
word2vec
支持向量机
核函数
情感分析
社会化短文本及其技术研究
社会化短文本
热点话题检测
主题分析
微博
基于规则的大规模试卷文本语块识别方法的研究
规则
语块
试卷文本
识别模型
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大规模短文本的快速话题发现方法与评价研究
来源期刊 计算机应用研究 学科
关键词 短文本 话题发现 词共现 社团发现
年,卷(期) 2015,(3) 所属期刊栏目 算法研究探讨
研究方向 页码范围 717-722,739
页数 7页 分类号 TP391.43
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2015.03.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 韩忠明 北京工商大学计算机与信息工程学院 51 631 14.0 23.0
2 黄今慧 北京工商大学计算机与信息工程学院 25 104 4.0 10.0
3 张慧 北京工商大学计算机与信息工程学院 18 260 7.0 16.0
4 张梦 北京工商大学计算机与信息工程学院 4 31 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (65)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (23)
二级引证文献  (34)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(9)
  • 引证文献(1)
  • 二级引证文献(8)
2018(17)
  • 引证文献(1)
  • 二级引证文献(16)
2019(8)
  • 引证文献(0)
  • 二级引证文献(8)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
短文本
话题发现
词共现
社团发现
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导