原文服务方: 计算机应用研究       
摘要:
潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具.但是它是建立在词袋模型(bag of word,BOW)假设上的,这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系.同时针对现有的模型精度不高,提出了基于中心词的上下文主题模型.这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密.在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算.这种方法就会形成窗口与窗口之间的顺序,从而形成单词之间也是局部有序.同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关.通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度.
推荐文章
基于CRF和错误驱动的中心词识别
问题分类
中心词
条件随机场(CRF)
错误驱动学习(TBL)
上下文信息
有序规则
基于CRF和错误驱动的中心词识别
问题分类
中心词
条件随机场(CRF)
错误驱动学习(TBL)
上下文信息
有序规则
基于ODP的上下文主题描述方法
主题爬行
下文相关
特征选择
主题描述
基于图像上下文语义信息的场景分类方法
场景分类
视觉词袋模型
马尔科夫随机场
潜在的狄利克雷分布
支持向量机
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于中心词的上下文主题模型
来源期刊 计算机应用研究 学科
关键词 潜在狄利克雷分配 主题模型 上下文信息
年,卷(期) 2018,(4) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1005-1009
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2018.04.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 严建峰 苏州大学计算机科学与技术学院 33 149 8.0 10.0
2 杨璐 苏州大学计算机科学与技术学院 19 74 5.0 7.0
3 常东亚 苏州大学计算机科学与技术学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (6)
同被引文献  (15)
二级引证文献  (3)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(5)
  • 引证文献(3)
  • 二级引证文献(2)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
潜在狄利克雷分配
主题模型
上下文信息
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导