作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文介绍了医药科研信息抓取系统中用到的数据抓取方法.为了高效地抓取网页内容,该方法采用带偏好的宽度优先遍历方式访问网页,将待访问的网址存放于高效的内存数据库BerKeley DB中,用布隆过滤器过滤已经抓取过的网址.通过Delphi xe7开发系统提供的WebBrowser控件和微软公司的MSHTML组件获取网页文本,将待提取数据文本划分成数据行,将数据行及相应的链接存入到对象数组中,用关键字在对象数组中匹配搜索时可实现精确和模糊搜索两种方式.并利用计算机的多线程技术提高网页抓取速度,利用多核优势带来的并行编程技术提高对网页内容中关键字的搜索速度.以万方医学网和中国知网为实际案例,阐述了数据抓取过程及结果,并提供了简化的Delphi xe7示例程序,结果表明,该方法能有效方便地应用于医药科研信息的采集.
推荐文章
天基信息网络能力适变方法探讨
天基信息网络
能力适变方法
抗毁效能评估
新媒体与信息网络变革趋势研究
新媒体
信息网络
变革趋势
技术逻辑
贵州气象信息网络安全问题研究
网络安全
安全管理
安全技术策略
基于层次基模型的信息网络层次关系挖掘方法研究
信息网络
层次关系
层次基
从属关系识别
层次关系结构修正
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 医药科研信息网络抓取方法研究
来源期刊 网络安全技术与应用 学科
关键词 网页内容识别 数据采集 宽度优先遍历算法 内存数据库 布隆过滤器 多线程技术 多核并行编程技术
年,卷(期) 2017,(10) 所属期刊栏目 行业与应用安全
研究方向 页码范围 132-135
页数 4页 分类号
字数 5614字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (40)
共引文献  (291)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(1)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(4)
  • 参考文献(2)
  • 二级参考文献(2)
2005(6)
  • 参考文献(2)
  • 二级参考文献(4)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(4)
  • 参考文献(3)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页内容识别
数据采集
宽度优先遍历算法
内存数据库
布隆过滤器
多线程技术
多核并行编程技术
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络安全技术与应用
月刊
1009-6833
11-4522/TP
大16开
北京市
2-741
2001
chi
出版文献量(篇)
13340
总下载数(次)
61
总被引数(次)
33730
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导