基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA (潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式。在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题。在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统。将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题。
推荐文章
基于 LDA 模型的 Ad hoc 信息检索方法研究
信息检索
语言模型
文档模型
话题模型
基于用户行为分析和LDA模型的数字媒体推荐系统的设计与实现
数字媒体推荐系统
用户行为分析
LDA模型
行为特征提取
信息采集
自适应聚类
基于LDA模型和HowNet的多粒度子话题划分方法
新闻报道
子话题划分
多粒度
狄利克雷分配模型
语义相似度计算
基于LDA-wSVM模型的文本分类研究
文本分类
潜在狄利克雷分布
支持向量机
权重计算
吉普斯抽样
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA模型的高校论坛热点提取系统
来源期刊 华中科技大学学报(自然科学版) 学科 工学
关键词 机器学习 潜在狄利克雷分配 主题模型 网络舆情 数据挖掘 高校论坛
年,卷(期) 2016,(z1) 所属期刊栏目 校园网工程与应用
研究方向 页码范围 186-189,194
页数 5页 分类号 TP181
字数 语种 中文
DOI 10.13245/j.hust.16S138
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马严 北京邮电大学网络技术研究院信息网络中心 98 731 15.0 23.0
2 林昭文 北京邮电大学网络技术研究院信息网络中心 15 105 6.0 10.0
4 吴军 北京邮电大学网络技术研究院信息网络中心 9 378 7.0 9.0
5 楼小帆 北京邮电大学网络技术研究院信息网络中心 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (64)
共引文献  (238)
参考文献  (9)
节点文献
引证文献  (8)
同被引文献  (13)
二级引证文献  (5)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(11)
  • 参考文献(1)
  • 二级参考文献(10)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(10)
  • 参考文献(2)
  • 二级参考文献(8)
2013(5)
  • 参考文献(2)
  • 二级参考文献(3)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(4)
  • 引证文献(2)
  • 二级引证文献(2)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
机器学习
潜在狄利克雷分配
主题模型
网络舆情
数据挖掘
高校论坛
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华中科技大学学报(自然科学版)
月刊
1671-4512
42-1658/N
大16开
武汉市珞喻路1037号
38-9
1973
chi
出版文献量(篇)
9146
总下载数(次)
26
总被引数(次)
88536
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导