基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
定题搜索引擎是新一代搜索引擎的发展方向之一,而定题爬虫是定题搜索引擎的构建关键.本文提出了一个定题爬虫系统的设计框架,详细介绍了其实现的关键技术.针对传统主题过滤算法Hopfield网页分析算法的不足,提出了自主学习的网页分析算法,提高链接于不相关页面后的相关页面被搜索的机会,同时提出了简单高效的镜像页面检测算法,最后, 用原型系统FC测试表明系统有较好的性能.
推荐文章
基于多Agent系统的定题爬虫算法
定题爬虫
主题关键字过滤
语义
木材营销管理系统设计与实现的关键技术
SSH
适用性
权限设计
工作流技术
性能优化
ITS系统及其实现的关键技术
智能车辆
智能道路
车辆导航系统
智能交通系统
产品族设计框架及其关键技术研究
产品族
平台
聚类
映射
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 定题爬虫的设计及其关键技术实现
来源期刊 计算机与现代化 学科 工学
关键词 定题爬虫 自主学习网页分析算法 镜像页面检测算法
年,卷(期) 2007,(1) 所属期刊栏目
研究方向 页码范围 9-12
页数 分类号 TP391.3
字数 语种 中文
DOI 10.3969/j.issn.1006-2475.2007.01.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 林坤辉 厦门大学软件学院 24 240 8.0 15.0
2 郑健珍 厦门大学软件学院 2 27 1.0 2.0
3 钱毅 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (112)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
定题爬虫
自主学习网页分析算法
镜像页面检测算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导