基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方法不仅能得到在特定段落的语境下词与词之间的语义关系,还能因此挖掘出更多与文档相关的主题信息.为了验证算法的有效性,对几种相关方法进行了性能比较,实验结果表明,该方法优于其它方法,生成的文档特征可以通过整合全局和局部关系来提高文本分类性能.
推荐文章
Doc2vec在薪水预测中的应用研究
薪水预测
doc2vec
文本特征
基于LDA模型和Doc2vec的学术摘要聚类方法
短文本聚类
LDA模型
Doc2vec模型
学术摘要
Doc2vec在薪水预测中的应用研究
薪水预测
doc2vec
文本特征
基于LDA和word2vec的英文作文跑题检测
作文跑题检测
向量空间模型
潜在狄利克雷分配
词语间语义关系
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于融合LDA和Doc2vec算法的文本表示模型的研究
来源期刊 天津理工大学学报 学科
关键词 LDA Doc2vec 文本表示 特征选择 文本分类
年,卷(期) 2021,(2) 所属期刊栏目
研究方向 页码范围 55-60
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1673-095X.2021.02.011
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1954(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
LDA
Doc2vec
文本表示
特征选择
文本分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
天津理工大学学报
双月刊
1673-095X
12-1374/N
大16开
天津市西青区宾水西道391号
1984
chi
出版文献量(篇)
2405
总下载数(次)
4
总被引数(次)
13943
论文1v1指导