基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
由于LDA模型需要预先给定话题个数k,因此在进行最优话题个数k选取时需要对语料库进行k值循环计算,从而加剧了算法的复杂度.针对LDA模型的最优k值选取问题,提出LDA话题增量训练算法.该方法首先以词-话题概率熵值作为LDA迭代过程中模糊单词的选取标准,并将抽取模糊单词归入新话题;其次,增加LDA变分推理过程中全局参数β(单词-话题概率矩阵)和α(狄利克雷分布参数)的维数及话题个数k;再次,将变换后的全局参数β、α和k作为输入进行变分训练;最后,循环调用LDA话题增量训练算法并在似然函数值收敛时停止循环过程,完成k的增量训练.此外,通过对真实数据集的实验分析验证了本文算法对最优k值选取的有效性和可行性.
推荐文章
一种基于网格的增量聚类算法
增量
聚类
网格
数据挖掘
基于LDA模型和HowNet的多粒度子话题划分方法
新闻报道
子话题划分
多粒度
狄利克雷分配模型
语义相似度计算
一种面向网络话题发现的增量文本聚类算法
话题发现
文本聚类
增量聚类
准确度
ICIT算法
一种基于代表点的增量聚类算法
代表点
节点属性
增量聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于LDA的k话题增量训练算法
来源期刊 吉林大学学报(工学版) 学科 工学
关键词 人工智能 LDA 变分推理 增量训练 话题分类 自然语言处理
年,卷(期) 2015,(4) 所属期刊栏目
研究方向 页码范围 1242-1252
页数 11页 分类号 TP391.4
字数 5076字 语种 中文
DOI 10.13229/j.cnki.jdxbgxb201504032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨静 哈尔滨工程大学计算机科学与技术学院 178 2073 24.0 37.0
2 辛宇 哈尔滨工程大学计算机科学与技术学院 21 175 7.0 13.0
3 谢志强 哈尔滨理工大学计算机科学与技术学院 62 725 15.0 23.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (281)
参考文献  (5)
节点文献
引证文献  (3)
同被引文献  (7)
二级引证文献  (6)
1977(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
研究主题发展历程
节点文献
人工智能
LDA
变分推理
增量训练
话题分类
自然语言处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
吉林大学学报(工学版)
双月刊
1671-5497
22-1341/T
大16开
长春市人民大街5988号
12-46
1957
chi
出版文献量(篇)
4941
总下载数(次)
5
总被引数(次)
43316
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导