基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架.利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度.该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础.
推荐文章
基于语义信息内容的FCA概念相似度计算方法
FCA概念相似度
信息内容
概率
语义
层次结构
综合结构和内容的 XML文档相似度计算方法
内容相似度
结构相似度
XML相似度
向量空间模型
路径频率
一种基于HSV空间的颜色相似度计算方法
颜色相似度
图像检索
颜色空间
基于向量空间模型结合语义的文本相似度算法
文本相似度
向量空间模型
语义
词频
召回率
特征项
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于向量空间的网页内容相似度计算方法研究
来源期刊 计算机与现代化 学科 工学
关键词 向量空间 网页内容相似度
年,卷(期) 2010,(9) 所属期刊栏目
研究方向 页码范围 53-55,58
页数 分类号 TP393
字数 1785字 语种 中文
DOI 10.3969/j.issn.1006-2475.2010.09.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王霜 西华大学机械工程与自动化学院 36 255 8.0 15.0
2 何忠秀 西华大学数学与计算机学院 15 121 5.0 11.0
3 安礼成 西华大学数学与计算机学院 1 12 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (52)
共引文献  (543)
参考文献  (14)
节点文献
引证文献  (12)
同被引文献  (15)
二级引证文献  (9)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2001(8)
  • 参考文献(2)
  • 二级参考文献(6)
2002(6)
  • 参考文献(0)
  • 二级参考文献(6)
2003(7)
  • 参考文献(2)
  • 二级参考文献(5)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(8)
  • 参考文献(3)
  • 二级参考文献(5)
2006(5)
  • 参考文献(2)
  • 二级参考文献(3)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(3)
  • 引证文献(1)
  • 二级引证文献(2)
2015(6)
  • 引证文献(3)
  • 二级引证文献(3)
2016(4)
  • 引证文献(2)
  • 二级引证文献(2)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
向量空间
网页内容相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导