作者:
原文服务方: 成都大学学报(自然科学版)       
摘要:
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/ IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.
推荐文章
基于语义理解的文本相似度算法
知网
语义
文本相似度
复制检测
信息检索
一种基于《知网》的文本语义相似度的计算方法
文本聚类
义原相似度
语义相似度
结合词性的短文本相似度算法及其在文本分类中的应用
短文本分类
短文本相似度
词性
hownet语义
分类准确率
基于事件的文本相似度计算
文本相似度
形式概念分析
自然语言处理
事件
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于《知网》的文本相似度研究
来源期刊 成都大学学报(自然科学版) 学科
关键词 知网 语义相似度 VSM 文本相似度
年,卷(期) 2014,(3) 所属期刊栏目 计算机科学与技术
研究方向 页码范围 251-253
页数 3页 分类号 TP391.1
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 袁晓峰 盐城师范学院信息科学与技术学院 12 39 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (97)
参考文献  (3)
节点文献
引证文献  (7)
同被引文献  (29)
二级引证文献  (10)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(6)
  • 引证文献(5)
  • 二级引证文献(1)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
知网
语义相似度
VSM
文本相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
成都大学学报(自然科学版)
季刊
1004-5422
51-1216/N
16开
1982-01-01
chi
出版文献量(篇)
1966
总下载数(次)
0
总被引数(次)
8997
论文1v1指导