基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架.利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度.该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础.
推荐文章
基于向量空间模型的文本相似度计算方法
向量空间模型
文本相似度
特征提取
互信息
基于网页内容相似度改进算法的主题网络爬虫
搜索引擎
主题网络爬虫
相似度
向量空间模型
HTML标签
基于内容相似度的网页正文提取
网页正文抽取
网页映射
网页清洗
文本相似度
融合词向量的多特征句子相似度计算方法研究
词向量
句子相似度
Word2vec
算法设计
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于向量空间的网页内容相似度计算方法研究
来源期刊 计算机与现代化 学科 工学
关键词 向量空间 网页内容相似度
年,卷(期) 2010,(9) 所属期刊栏目
研究方向 页码范围 53-55,58
页数 分类号 TP393
字数 1785字 语种 中文
DOI 10.3969/j.issn.1006-2475.2010.09.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王霜 西华大学机械工程与自动化学院 36 255 8.0 15.0
2 何忠秀 西华大学数学与计算机学院 15 121 5.0 11.0
3 安礼成 西华大学数学与计算机学院 1 12 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (52)
共引文献  (543)
参考文献  (14)
节点文献
引证文献  (12)
同被引文献  (15)
二级引证文献  (9)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2001(8)
  • 参考文献(2)
  • 二级参考文献(6)
2002(6)
  • 参考文献(0)
  • 二级参考文献(6)
2003(7)
  • 参考文献(2)
  • 二级参考文献(5)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(8)
  • 参考文献(3)
  • 二级参考文献(5)
2006(5)
  • 参考文献(2)
  • 二级参考文献(3)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(3)
  • 引证文献(1)
  • 二级引证文献(2)
2015(6)
  • 引证文献(3)
  • 二级引证文献(3)
2016(4)
  • 引证文献(2)
  • 二级引证文献(2)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
向量空间
网页内容相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导