原文服务方: 杭州电子科技大学学报(自然科学版)       
摘要:
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理.
推荐文章
基于汉明距离的文本相似度计算
文本分类
信息检索
汉明距离
语义分析与词频统计相结合的中文文本相似度量方法研究
向量空间模型
语义分析
词频
概率分布
文本相似度
结合语义和结构的短文本相似度计算
EMD
Word2Vec
短文本相似度计算
语义相似度
词序结构
基于语义信息的中文短信文本相似度研究
短信文本
相似度
TF-IDF模型
特征词
向量空间模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合汉明距离及语义的文本相似度量方法研究
来源期刊 杭州电子科技大学学报(自然科学版) 学科
关键词 文本相似度 向量空间模型 词频—逆文本频率 语义 汉明距离
年,卷(期) 2016,(3) 所属期刊栏目
研究方向 页码范围 36-41
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.13954/j.cnki.hdu.2016.03.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡维华 杭州电子科技大学计算机学院 67 571 13.0 20.0
2 鲍乾 杭州电子科技大学计算机学院 2 17 2.0 2.0
3 李柯 杭州电子科技大学计算机学院 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (41)
共引文献  (202)
参考文献  (9)
节点文献
引证文献  (6)
同被引文献  (20)
二级引证文献  (6)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(1)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(6)
  • 参考文献(1)
  • 二级参考文献(5)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(3)
  • 参考文献(2)
  • 二级参考文献(1)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(2)
  • 参考文献(0)
  • 二级参考文献(2)
2018(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(3)
  • 参考文献(0)
  • 二级参考文献(1)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本相似度
向量空间模型
词频—逆文本频率
语义
汉明距离
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
杭州电子科技大学学报(自然科学版)
双月刊
1001-9146
33-1339/TN
chi
出版文献量(篇)
3184
总下载数(次)
0
总被引数(次)
11145
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导