作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文介绍了网上医药科研信息的抓取方法.为了高效地抓取网页内容,本系统采用带偏好的宽度优先遍历算法,将待访问的网址存放于高效的内存数据库BerKeley DB中,用正则表达式抽取指定内容,用Java提供的PDFBox技术识别电子文件内容.以详实的代码深入浅出的介绍了实现过程,结果表明,本系统能有效方便地应用于医药科研信息的采集.
推荐文章
基于链接信息的网页分类算法
网页分类
类别
K近邻方法
链接信息分类
基于优先集成算子的直觉乘法偏好关系共识模型
直觉乘法偏好关系
直觉乘法优先加权平均算子
直觉乘法优先加权几何算子
共识决策
一种多约束最优路径宽度优先松弛算法
多约束
花费
前向搜索
后向搜索
松弛
路径振荡
基于信息特征子空间均匀遍历的图像去噪算法
图像
去噪
特征子空间
均匀遍历
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于带偏好的宽度优先遍历算法的网页信息抓取方法研究
来源期刊 网络安全技术与应用 学科
关键词 网页内容识别 宽度优先遍历算法 内存数据库 正则表达式 PDF文件识别
年,卷(期) 2017,(11) 所属期刊栏目 安全模型、算法与编程
研究方向 页码范围 57-59
页数 3页 分类号
字数 2717字 语种 中文
DOI 10.3969/j.issn.1009-6833.2017.11.034
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (16)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(5)
  • 参考文献(5)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页内容识别
宽度优先遍历算法
内存数据库
正则表达式
PDF文件识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络安全技术与应用
月刊
1009-6833
11-4522/TP
大16开
北京市
2-741
2001
chi
出版文献量(篇)
13340
总下载数(次)
61
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导