基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文档的内容分析和连接分析是计算文档相似度的两种方法.连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果.为了解决这个问题,提出了一个新的算法一S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性.S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高.最后,给出了S-SimRank的收敛性的数学证明.
推荐文章
综合结构和内容的 XML文档相似度计算方法
内容相似度
结构相似度
XML相似度
向量空间模型
路径频率
基于综合语义的XML文档相似度计算方法
可扩展标记语言
相似度计算
构件向量
综合语义
基于语义信息内容的FCA概念相似度计算方法
FCA概念相似度
信息内容
概率
语义
层次结构
一种综合事件本体相似度计算方法
本体
事件本体
概念相似度
语义
相似度计算
事件本体相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 S-SimRank:结合内容和链接信息的文档相似度计算方法
来源期刊 计算机科学与探索 学科 工学
关键词 连接分析 相似度计算 文本分析
年,卷(期) 2009,(4) 所属期刊栏目 学术研究
研究方向 页码范围 378-391
页数 14页 分类号 TP182
字数 2318字 语种 中文
DOI 10.3778/j.issn.1673-9418.2009.04.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘红岩 清华大学管理科学与工程系 17 784 6.0 17.0
2 何军 中国人民大学教育部数据工程和知识工程重点实验室 24 215 6.0 14.0
6 李佩 中国人民大学教育部数据工程和知识工程重点实验室 5 22 2.0 4.0
10 蔡元哲 中国人民大学教育部数据工程和知识工程重点实验室 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (6)
同被引文献  (6)
二级引证文献  (7)
1963(1)
  • 参考文献(1)
  • 二级参考文献(0)
1973(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
连接分析
相似度计算
文本分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导