基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法.在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取.通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法.
推荐文章
基于关联规则挖掘的社区网络数据爬虫算法
关联规则挖掘
社区网络
数据爬虫
推荐
基于HTMLParser信息提取的网络爬虫设计
网络爬虫
垂直搜索
HTMLParser
基于网络爬虫的森林经营知识采集系统研建
森林经理学
森林经营知识
知识库
知识采集
网络爬虫
基于主题网络爬虫思想的Web数据挖掘算法探讨
主题网络爬虫
数据挖掘
算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网络爬虫的专题机构数据空间信息采集方法
来源期刊 测绘科学 学科 工学
关键词 泛在网络 空间信息采集 网络爬虫 矩阵算法 决策树
年,卷(期) 2019,(7) 所属期刊栏目 技术创新
研究方向 页码范围 122-127,140
页数 7页 分类号 TP391
字数 语种 中文
DOI 10.16251/j.cnki.1009-2307.2019.07.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 闫志刚 中国矿业大学环境与测绘学院 38 439 12.0 20.0
2 杨宇 中国矿业大学环境与测绘学院 21 321 9.0 17.0
3 孙亚琴 中国矿业大学环境与测绘学院 13 92 6.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (95)
共引文献  (197)
参考文献  (15)
节点文献
引证文献  (2)
同被引文献  (17)
二级引证文献  (0)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(1)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(5)
  • 参考文献(1)
  • 二级参考文献(4)
2005(7)
  • 参考文献(0)
  • 二级参考文献(7)
2006(11)
  • 参考文献(1)
  • 二级参考文献(10)
2007(11)
  • 参考文献(2)
  • 二级参考文献(9)
2008(11)
  • 参考文献(0)
  • 二级参考文献(11)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(21)
  • 参考文献(2)
  • 二级参考文献(19)
2011(10)
  • 参考文献(1)
  • 二级参考文献(9)
2012(8)
  • 参考文献(2)
  • 二级参考文献(6)
2013(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
泛在网络
空间信息采集
网络爬虫
矩阵算法
决策树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
测绘科学
月刊
1009-2307
11-4415/P
大16开
北京市海淀区北太平路16号
2-945
1976
chi
出版文献量(篇)
7258
总下载数(次)
36
论文1v1指导