基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂.为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度.
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
个性化搜索引擎算法研究
搜索引擎
网络蜘蛛
PageRank
感觉查询
反馈技术
基于用户个性化特征的网页视觉传达设计研究
个性化特征
网页视觉传达
兴趣行为
跟踪系统
视觉兴奋点
自适应
基于用户浏览行为的个性化网页推荐
网页挖掘
浏览行为
关联规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于规则引擎的个性化主题网页爬虫的研究
来源期刊 计算机技术与发展 学科 工学
关键词 规则引擎 主题爬虫 搜索引擎
年,卷(期) 2011,(3) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 56-59,63
页数 分类号 TP31
字数 5031字 语种 中文
DOI 10.3969/j.issn.1673-629X.2011.03.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 尹婷 中南大学信息科学与工程学院 7 140 4.0 7.0
2 赵思佳 中南大学信息科学与工程学院 6 134 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (104)
参考文献  (10)
节点文献
引证文献  (9)
同被引文献  (20)
二级引证文献  (10)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(8)
  • 参考文献(2)
  • 二级参考文献(6)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(8)
  • 参考文献(2)
  • 二级参考文献(6)
2009(3)
  • 参考文献(3)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(3)
  • 引证文献(3)
  • 二级引证文献(0)
2014(5)
  • 引证文献(2)
  • 二级引证文献(3)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
规则引擎
主题爬虫
搜索引擎
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导