基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
科学技术的发展为文献及学者的管理提出了新的挑战,为解决海量科技文献及学者的自动管理,文中提出了一种基于SL-LDA的领域标签获取方法.在海量科技文献的基础上,分析科技文献数据的分布特点,通过引入科技文献的词频特征构建了SL-LDA主题模型,利用该主题模型对同一学者的科技文献进行"主题-短语"抽取,获得初始领域关键词.接着引入领域体系,对主题模型的抽取结果与体系标签进行向量表征,经过位置特征加权后使用相似度进行体系映射,最终获得学者的领域标签.实验结果表明,在同样的文献数据量下,SL-LDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的Text-Rank算法相比,最终获取的标签词效果更好,准确率更高,F1值也提升到0.572,说明基于SL-LDA的领域标签抽取方法在学术领域具有较好的适用性.
推荐文章
基于领域模型的需求获取方法
领域模型
需求获取
模型抽象
模型精化
基于LDA的领域本体概念获取方法研究
民航突发事件
文本信息
领域本体
概念获取
LDA模型
基于 LDA 模型的 Ad hoc 信息检索方法研究
信息检索
语言模型
文档模型
话题模型
基于LDA模型和HowNet的多粒度子话题划分方法
新闻报道
子话题划分
多粒度
狄利克雷分配模型
语义相似度计算
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于SL-LDA的领域标签获取方法
来源期刊 计算机科学 学科 工学
关键词 领域标签 SL-LDA模型 标签映射 主题短语抽取 科技文献
年,卷(期) 2020,(11) 所属期刊栏目 数据库&大数据&数据科学
研究方向 页码范围 95-100
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.11896/jsjkx.190900012
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (69)
共引文献  (63)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1958(2)
  • 参考文献(0)
  • 二级参考文献(2)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(4)
  • 参考文献(2)
  • 二级参考文献(2)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(9)
  • 参考文献(0)
  • 二级参考文献(9)
2015(7)
  • 参考文献(0)
  • 二级参考文献(7)
2016(12)
  • 参考文献(1)
  • 二级参考文献(11)
2017(5)
  • 参考文献(0)
  • 二级参考文献(5)
2018(4)
  • 参考文献(1)
  • 二级参考文献(3)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
领域标签
SL-LDA模型
标签映射
主题短语抽取
科技文献
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导