基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进Labeled LDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.
推荐文章
基于改进Labeled LDA模型的科技视频文本分类
科技视频
文本分类
标签
卡方加权
领域术语库
基于Labeled LDA主题模型的医学文献自动分类法
Labeled LDA
主题模型
自动分类
SVM
基于共享背景主题的 Labeled LDA 模型
隐藏狄利克雷分配
文本分析
多标记学习
半监督聚类
基于多标签分类的学术文献潜在时间意图识别研究
多标签分类
主题模型
潜在时间意图
文本特征抽取
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 用于多标签分类的改进Labeled LDA模型
来源期刊 南京大学学报(自然科学版) 学科
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
年,卷(期) 2013,(4) 所属期刊栏目
研究方向 页码范围 425-432
页数 分类号
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 江雨燕 安徽工业大学管理科学与工程学院 50 267 9.0 13.0
2 李平 安徽工业大学管理科学与工程学院 32 147 6.0 11.0
3 王清 安徽工业大学管理科学与工程学院 6 58 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (16)
同被引文献  (76)
二级引证文献  (37)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(5)
  • 引证文献(3)
  • 二级引证文献(2)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2018(11)
  • 引证文献(6)
  • 二级引证文献(5)
2019(23)
  • 引证文献(4)
  • 二级引证文献(19)
2020(9)
  • 引证文献(1)
  • 二级引证文献(8)
研究主题发展历程
节点文献
主题模型
隐含狄利克雷分配
多标签分类
共享主题
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南京大学学报(自然科学版)
双月刊
0469-5097
32-1169/N
江苏省南京市南京大学
chi
出版文献量(篇)
2526
总下载数(次)
6
总被引数(次)
23071
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导