基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统基于 TF-IDF 的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的 TF-IDF 向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围.提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)的文本相似度计算方法,LDA 模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用 JS(Jensen-Shannon)距离来计算文本相似度.通过聚类实验表明该方法取得了较高的 F 值.
推荐文章
一种PST_LDA中文文本相似度计算方法
词性标注
LDA模型
PST_LDA模型
文本相似度计算
基于WMF_LDA主题模型的文本相似度计算
词语语义
词语合并
词性筛选
文本相似度
一种PST_LDA中文文本相似度计算方法
词性标注
LDA模型
PST_LDA模型
文本相似度计算
基于中文分词的文本相似度动态规划算法
文本相似度
动态规划
最长公共子序列
中文分词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于 LDA 的中文文本相似度计算
来源期刊 计算机技术与发展 学科 工学
关键词 向量空间模型 文本相似度 自然语言处理 潜在狄里克雷分配 主题模型
年,卷(期) 2013,(1) 所属期刊栏目
研究方向 页码范围 217-220
页数 分类号 TP31
字数 2737字 语种 中文
DOI 10.3969/j.issn.1673-629X.2013.01.053
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑诚 安徽大学计算机科学与技术学院 103 1013 15.0 28.0
2 夏青松 安徽大学计算机科学与技术学院 2 65 2.0 2.0
3 孙昌年 安徽大学计算机科学与技术学院 2 65 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (278)
参考文献  (5)
节点文献
引证文献  (55)
同被引文献  (56)
二级引证文献  (162)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(6)
  • 引证文献(5)
  • 二级引证文献(1)
2015(22)
  • 引证文献(13)
  • 二级引证文献(9)
2016(30)
  • 引证文献(11)
  • 二级引证文献(19)
2017(41)
  • 引证文献(12)
  • 二级引证文献(29)
2018(56)
  • 引证文献(9)
  • 二级引证文献(47)
2019(47)
  • 引证文献(5)
  • 二级引证文献(42)
2020(15)
  • 引证文献(0)
  • 二级引证文献(15)
研究主题发展历程
节点文献
向量空间模型
文本相似度
自然语言处理
潜在狄里克雷分配
主题模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导