作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本主题词提取及相似度计算在搜索引擎、智能问答等自然语言处理的很多研究领域都有着广泛的应用,国内外的专家学者对此有着广泛的研究,但大多都采用了复杂的数学模型,实现起来较为麻烦.对此,在文本主题词提取中,采用提取出文档中除开常见停用词之外的高频词,并通过对比高频词向量之间的夹角余弦,剔除与其他高频词相差最大的噪声高频词的方法,得到文档最终的主题词.再根据提取出的主题词,通过比较两篇文档的主题词的词向量之和之间的夹角余弦,以此来判断两篇文档之间的相似度.基于此思路,开发了一款基于winForm技术的文本主题提取及相似度计算软件系统,实现较为简单,效果超出单纯通过文档向量来判定文档相似度的方法.
推荐文章
基于WMF_LDA主题模型的文本相似度计算
词语语义
词语合并
词性筛选
文本相似度
一种基于本体的文本主题提取方法研究
文本主题
自动文摘
本体
文本聚类
语义向量
基于增量词集频率的文本主题词提取算法研究
增量词集频率
主题词
自然语言处理
基于本体及相似度的文本聚类研究
本体
相似度
文本聚类
语义
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本主题提取及相似度计算系统研究与开发
来源期刊 现代信息科技 学科 工学
关键词 文本主题提取 文本相似度计算 高频词 词向量 软件系统
年,卷(期) 2017,(4) 所属期刊栏目 信息技术
研究方向 页码范围 20-22
页数 3页 分类号 TP391.1
字数 2057字 语种 中文
DOI 10.3969/j.issn.2096-4706.2017.04.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郭肇毅 乐山师范学院互联网自然语言智能处理四川省高等学校重点实验室 7 12 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (7)
参考文献  (3)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本主题提取
文本相似度计算
高频词
词向量
软件系统
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代信息科技
半月刊
2096-4706
44-1736/TN
16开
广东省广州市白云区机场路1718号8A09
46-250
2017
chi
出版文献量(篇)
4784
总下载数(次)
45
总被引数(次)
3182
论文1v1指导