基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网络爬虫指的是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本[1].但是实际上爬虫还分为正规爬虫和非正规爬虫,所谓的正规爬虫就是通过正规途径和手段获取网站信息和数据,非正规爬虫又称为恶意爬虫,主要用于非法盗窃数据,给网站服务器增加负担以及偷窥一些敏感信息数据等.本文将会基于决策树算法设计一种新爬虫检测技术,并根据爬虫检测结果提供一些反爬机制,对恶意爬虫进行进行评屏蔽等,进而实现对网站和服务器以及部分数据,信息的保护,降低互联网资源重叠现象.
推荐文章
基于决策树算法的信息资产识别
信息资产
资产识别
决策树
C4.5
基于决策树的网络协议识别算法研究
网络对抗
协议识别
数据分类
决策树
基于决策树的查询接口识别技术
Deep Web
信息提取
决策树
基于决策树的敏感词变形体识别算法研究及应用
敏感词识别
敏感词变形体
决策树
敏感程度计算
多因子模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于决策树算法的爬虫识别技术
来源期刊 软件 学科 工学
关键词 网络爬虫 爬虫检测 恶意爬虫 反爬虫
年,卷(期) 2017,(7) 所属期刊栏目 设计研究与应用
研究方向 页码范围 122-125
页数 4页 分类号 TP314
字数 2759字 语种 中文
DOI 10.3969/j.issn.1003-6970.2017.07.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学林 浙江大学软件学院 4 8 2.0 2.0
2 刘宇 浙江大学软件学院 7 87 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (204)
参考文献  (9)
节点文献
引证文献  (3)
同被引文献  (4)
二级引证文献  (4)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(5)
  • 参考文献(1)
  • 二级参考文献(4)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(4)
  • 引证文献(3)
  • 二级引证文献(1)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
网络爬虫
爬虫检测
恶意爬虫
反爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
论文1v1指导