作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
垂直搜索引擎爬虫系统的主要作用是根据用户的需求抽取目标字段值.针对垂直搜索引擎数据定向抽取的特点,爬虫系统首先将一张范例网页"清洗"成符合W3C标准的文档,然后利用可视化XPath生成器解析该页面,获取目标字段对应的XPath路径,利用XPath路径进行数据抽取,最终获得目标字段值.经检测,该系统具有较高的抽取效率,其稳定性和安全性都符合实际应用需求.
推荐文章
石油信息垂直搜索引擎技术
石油行业
垂直搜索引擎
系统架构
系统功能
W eb垂直搜索引擎实现过程的研究
Web搜索
搜索引擎实现
垂直搜索架构
爬虫
金融信息垂直搜索引擎的技术探讨
金融信息
垂直搜索引擎
本体
语义检索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 垂直搜索引擎爬虫系统的设计
来源期刊 长江大学学报(自科版)理工卷 学科 工学
关键词 垂直搜索 可视化XPath生成器 数据抽取 目标字段
年,卷(期) 2010,(3) 所属期刊栏目
研究方向 页码范围 66-68
页数 分类号 TP393
字数 2482字 语种 中文
DOI 10.3969/j.issn.1673-1409-C.2010.03.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李敏 长江大学计算机科学学院 43 175 6.0 12.0
2 赵君 长江大学计算机科学学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (18)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
垂直搜索
可视化XPath生成器
数据抽取
目标字段
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
长江大学学报(自科版)
双月刊
1673-1409
42-1741/N
湖北省荆州市南环路1号
chi
出版文献量(篇)
8185
总下载数(次)
23
总被引数(次)
21470
论文1v1指导