基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
主题爬虫是收集特定领域资源的网络爬虫。为了保证主题爬虫的查准率,提出一种基于模糊 SVDD(support vector do-main description)监督的 PageRank 爬虫算法,既考虑网页间的链接关系,又使用合适的分类器监督来保证爬虫与主题不偏离。通过与关键词匹配主题爬虫、shark-search 主题爬虫、PageRank 主题爬虫、基于 SVM预测的主题爬虫、普通 SVDD 指导的主题爬虫进行试验对比,验证了该算法具有更高的查准率。
推荐文章
基于贝叶斯分类器的主题爬虫研究
贝叶斯
分类器
主题爬虫
主题相关度
PageRank算法中主题漂移的研究
pagerank
主题漂移
主题敏感
页面排序
搜索引擎
基于主题相关性和时间因素的改进 PageRank算法
网页
发布时间
PageRank
主题相关性
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于模糊SVDD监督的PageRank主题爬虫算法
来源期刊 计算机应用与软件 学科 工学
关键词 模糊 SVDD PageRank 主题爬虫
年,卷(期) 2014,(3) 所属期刊栏目 数据库技术
研究方向 页码范围 16-19,30
页数 5页 分类号 TP3
字数 3456字 语种 中文
DOI 10.3969/j.issn.1000-386x.2014.03.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨煜普 上海交通大学自动化系系统控制与信息处理教育部重点实验室 125 1534 23.0 35.0
2 汪伟 上海交通大学自动化系系统控制与信息处理教育部重点实验室 6 57 3.0 6.0
3 魏岩 上海交通大学自动化系系统控制与信息处理教育部重点实验室 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (5)
参考文献  (3)
节点文献
引证文献  (4)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
模糊 SVDD
PageRank
主题爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导