基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了实现文本代表性语义词汇的抽取,提出一种基于词组主题建模的文本语义压缩算法SCPTM(semantic compression based on phrase topic modeling).该算法首先将代表性语义词汇抽取问题转化为最大化优化模型,并通过贪心搜索策略实现该模型的近似求解.然后,利用词组挖掘模型LDACOL实现词组主题建模,得到SCPTM算法的输入参数;同时,针对该模型中词组的主题分配不稳定的问题进行改进,使得取得的代表性语义词汇更加符合人们对语义的认知习惯.最后,将改进LDACOL模型与LDA模型、LDACOL模型以及TNG模型的主题挖掘性能进行实验比较,并利用SCPTM算法针对不同语料库进行语义压缩,根据聚类结果评价其有效性.实验结果表明,在多数情况下,改进LDACOL模型的主题抽取效果优于其他3种模型;通过SCPTM算法抽取代表性语义词汇能达到70% ~ 100%的精度,相比PCA、MDS、ISOMAP等传统降维算法能获得更高的聚类效果.
推荐文章
基于语义分布相似度的主题模型
潜在狄利克雷分布
语义分布相似度
主题模型
GPU模型
中文短文本语法语义相似度算法
语法语义相似度
语句相似性计算
HowNet
语料库
语法分析
语义分析
相似度计算
基于语义角色标注的文本水印算法
文本水印
自然语言处理
语义角色标注
映射
基于语义列表的中文文本聚类算法
文本聚类
文本表示
语义列表
相似度计算
聚簇表示
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词组主题建模的文本语义压缩算法
来源期刊 西南交通大学学报 学科 工学
关键词 主题模型 代表性语义词汇 文本挖掘 语义压缩 SCPTM
年,卷(期) 2015,(4) 所属期刊栏目
研究方向 页码范围 755-763
页数 9页 分类号 TP392
字数 7999字 语种 中文
DOI 10.3969/j.issn.0258-2724.2015.04.027
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张引 浙江大学计算机科学与技术学院 44 1518 17.0 38.0
2 王李冬 杭州师范大学钱江学院 34 210 8.0 14.0
3 吕明琪 杭州师范大学钱江学院 7 59 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (44)
共引文献  (12)
参考文献  (9)
节点文献
引证文献  (4)
同被引文献  (44)
二级引证文献  (20)
1954(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(3)
  • 参考文献(0)
  • 二级参考文献(3)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(2)
  • 参考文献(0)
  • 二级参考文献(2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(3)
  • 参考文献(3)
  • 二级参考文献(0)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(5)
  • 引证文献(1)
  • 二级引证文献(4)
2019(13)
  • 引证文献(2)
  • 二级引证文献(11)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
主题模型
代表性语义词汇
文本挖掘
语义压缩
SCPTM
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西南交通大学学报
双月刊
0258-2724
51-1277/U
大16开
四川省成都市二环路北一段
62-104
1954
chi
出版文献量(篇)
3811
总下载数(次)
4
总被引数(次)
51589
论文1v1指导