基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网上开源代码越来越多,设计程序时寻找和复用已有的开源代码已经成为软件工程的一种趋势.为了快速和精准地搜索开源代码,文章设计了基于MapReduce计算模型的源代码并行爬取方法,并编写代码,实现了源代码并行爬取系统.文章首先分析当前各种开源代码库,选择合适的代码爬取场所和爬取对象,明确并行爬取的工作流程和目标;然后给出源代码并行爬取的Map方法和Reduce方法,基于此设计一套开源代码并行爬取算法;最后利用集群计算环境实现开源代码的并行爬取.实验表明,多机并行搜索源代码与传统方法相比,速度明显提高,且搜索的返回结果可信度更高.
推荐文章
基于SVN技术实现气象项目源代码管理
气象
Subversion
SVN
源代码管理
基于DM642的X264开源代码实现的研究
H.264
开源软件
X264
TMS320DM642
优化
基于源代码分析的逆向建模
源代码分析
软件建模
逆向建模
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的开源代码并行爬取方法研究与实现
来源期刊 信息网络安全 学科 工学
关键词 软件工程 源代码搜索 并行爬取 MapReduce 开源代码
年,卷(期) 2018,(1) 所属期刊栏目 技术研究
研究方向 页码范围 58-66
页数 9页 分类号 TP309
字数 6624字 语种 中文
DOI 10.3969/j.issn.1671-1122.2018.01.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曾国荪 同济大学计算机科学与技术系 102 1102 17.0 29.0
2 马军岩 同济大学计算机科学与技术系 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (56)
共引文献  (87)
参考文献  (15)
节点文献
引证文献  (1)
同被引文献  (4)
二级引证文献  (2)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(1)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(4)
  • 参考文献(3)
  • 二级参考文献(1)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(6)
  • 参考文献(1)
  • 二级参考文献(5)
2013(6)
  • 参考文献(1)
  • 二级参考文献(5)
2014(13)
  • 参考文献(2)
  • 二级参考文献(11)
2015(6)
  • 参考文献(2)
  • 二级参考文献(4)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
软件工程
源代码搜索
并行爬取
MapReduce
开源代码
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息网络安全
月刊
1671-1122
31-1859/TN
大16开
上海岳阳路76号4号楼211室
4-688
2001
chi
出版文献量(篇)
7165
总下载数(次)
26
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导