基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在垂直搜索引擎中,怎样抓取动态生成的主题网页一直是面向垂直搜索引擎网页抓取器的一个难题.本文提出了一种基于IE内核和DOM的面向垂直搜索引擎的动态网页抓取方法.实验表明,该方法对动态网页和主题网页抓取的准确率平均在95%以上,召回率平均在97%以上.
推荐文章
一种基于本体的垂直搜索引擎系统模型
搜索引擎
垂直搜索引擎
本体
语义
石油信息垂直搜索引擎技术
石油行业
垂直搜索引擎
系统架构
系统功能
主题搜索引擎中专业网页索引集构造算法的研究
主题搜索引擎
信息检索
权威页[1]
中心页[1]
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向垂直搜索引擎的一种动态网页的抓取方法
来源期刊 科技信息(学术版) 学科 工学
关键词 动态网页 IE内核 DOM 提取模式
年,卷(期) 2008,(4) 所属期刊栏目 计算机与网络
研究方向 页码范围 205
页数 1页 分类号 TP3
字数 1815字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 罗燕京 北京航空航天大学软件工程研究所 11 52 4.0 7.0
2 钟锋 北京航空航天大学软件工程研究所 2 9 2.0 2.0
3 杨曦 北京航空航天大学软件工程研究所 2 9 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (6)
同被引文献  (10)
二级引证文献  (2)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
动态网页
IE内核
DOM
提取模式
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技信息(学术版)
旬刊
chi
出版文献量(篇)
33663
总下载数(次)
51
总被引数(次)
50452
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导