基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂直领域拥有行业语料和规范的特点,从理论角度确定了结构化提取方案的可行性.提出相似重复检测和基于属性语义的标签匹配等算法,实现结构的分析和目标字段的匹配,并出于系统管理和调优的考虑,设计了预设匹配模板和结构分析结果复用机制.实际应用和错误率测试表明,本方案具有很强的可行性,能够大大减少人工编写的代码,错误率较低.设计思路可应用于其他领域的主题爬虫系统,快速获得多个站点的大量数据,将焦点更多地放在结构化数据的处理和信息挖掘.
推荐文章
面向网站群的主题爬虫研究
爬虫技术
信息检索
自举聚焦爬虫
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
主题整合:结构化教学的重要举措
小学数学
主题整合
结构化教学
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 自动结构化数据的电商网站主题爬虫研究
来源期刊 计算机系统应用 学科
关键词 自动结构化 爬虫 标签匹配 多源站 电商网站
年,卷(期) 2018,(7) 所属期刊栏目 系统建设
研究方向 页码范围 90-95
页数 6页 分类号
字数 4890字 语种 中文
DOI 10.15888/j.cnki.csa.006412
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张倩 广东技术师范学院计算机科学学院 10 14 2.0 3.0
2 林安成 广东技术师范学院计算机科学学院 1 0 0.0 0.0
3 廖秀秀 广东技术师范学院计算机科学学院 7 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (62)
共引文献  (21)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(7)
  • 参考文献(2)
  • 二级参考文献(5)
2013(9)
  • 参考文献(2)
  • 二级参考文献(7)
2014(4)
  • 参考文献(1)
  • 二级参考文献(3)
2015(7)
  • 参考文献(3)
  • 二级参考文献(4)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
自动结构化
爬虫
标签匹配
多源站
电商网站
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导