基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法.TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度.实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性.
推荐文章
百度百科合作网络的分形生长机制研究
百度百科
复杂网络
谱分析
多重分形
Hurst指数
基于维基百科的汉越词语相似度计算
汉语
越南语
词语相似度
维基百科
概念
共现关系
对应关系
词频
基于维基百科和网页相似度分析的主题爬行策略
维基百科
文本相关性
链接分析
相似度计算
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进TF-IDF的百度百科词语相似度计算
来源期刊 甘肃科学学报 学科 工学
关键词 TF-IDF 百度百科 词语相似度 词语代表性
年,卷(期) 2019,(2) 所属期刊栏目 经济管理
研究方向 页码范围 143-147
页数 5页 分类号 TP391.1
字数 3703字 语种 中文
DOI 10.16468/j.cnki.issn1004-0366.2019.02.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨欣 天津大学管理与经济学部 5 9 2.0 2.0
2 郭建彬 天津大学管理与经济学部 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (95)
共引文献  (135)
参考文献  (14)
节点文献
引证文献  (2)
同被引文献  (4)
二级引证文献  (0)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(7)
  • 参考文献(2)
  • 二级参考文献(5)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(6)
  • 参考文献(1)
  • 二级参考文献(5)
2014(10)
  • 参考文献(0)
  • 二级参考文献(10)
2015(9)
  • 参考文献(3)
  • 二级参考文献(6)
2016(8)
  • 参考文献(1)
  • 二级参考文献(7)
2017(7)
  • 参考文献(6)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
TF-IDF
百度百科
词语相似度
词语代表性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
甘肃科学学报
双月刊
1004-0366
62-1098/N
大16开
兰州市定西南路299号
54-66
1989
chi
出版文献量(篇)
3450
总下载数(次)
10
总被引数(次)
17420
论文1v1指导