作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在用爬虫爬取到大型商品网站的大规模网页数据集后,要将网页数据集作进一步筛选以得到目标数据集,筛选之前要做的一项准备工作就是删除网页中多余的标签.为此,用递归算法的思想给出了标签删除的算法,提出了标签删除功能的软件设计思想,对设计进行了2次设计改进及性能优化,最终采用了1个缓冲区维系线程1个标签删除线程的双线程设计思想.实验表明,优化后的标签删除功能在单机上每1000个网页的平均处理时间只需19.7 s,处理20万个网页只需1.1小时.
推荐文章
UWB定位系统中标签接收机的FPGA实现
超宽带
同步捕获
三态循环检测
FPGA
有源加密型微光学标签系统的设计
激光学标签
手机相机
OOK调制
Bokode标签原理
基于WinCC的烟箱标签打印系统设计
用户归档
VBS脚本
已命名字串
ActiveX自动化
烟箱号
基于Web的网络爬虫的设计与实现
搜索引擎
网络爬虫
信息检索
页面索引
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 爬虫系统中标签删除功能的设计及优化
来源期刊 计算机系统应用 学科
关键词 标签删除功能 递归算法 双线程设计 性能实验
年,卷(期) 2019,(1) 所属期刊栏目 软件技术·算法
研究方向 页码范围 176-181
页数 6页 分类号
字数 3500字 语种 中文
DOI 10.15888/j.cnki.csa.006736
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邓子云 长沙商贸旅游职业技术学院经济贸易学院 31 62 5.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (17)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(5)
  • 参考文献(2)
  • 二级参考文献(3)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
标签删除功能
递归算法
双线程设计
性能实验
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
相关基金
湖南省自然科学基金
英文译名:Natural Science Foundation of Hunan Province
官方网址:http://jj.hnst.gov.cn/
项目类型:一般面上项目
学科类型:
论文1v1指导