基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
软件开发者在开发项目过程中往往需要引用大量由其他开发者开发的基础软件包.为获取除基础软件包开发文档外的使用方式,软件开发者需将代码关键词输入到代码搜索引擎搜索代码片段.文章提出一种基于向量表示的代码搜索方法,该方法收集Github和Stack Overflow数据集中的代码片段训练一个扩充代码词的skip-gram模型,并使用这个模型扩充从搜索文本中提取的与代码词关联的搜索关键词,得到搜索关键词上下文代码片段向量组,将搜索关键词上下文代码片段向量组和待匹配代码片段向量组编码后,计算余弦相似度并排序生成搜索结果.为验证算法的有效性,分别在Github数据集和Stack Overflow上验证.在Stack Overflow数据集上测试表明:58%的搜索能在第1个搜索结果找到正确答案;65%的搜索能在前5个答案中找到正确答案;72%的搜索能在前10个答案中找到正确答案,并在召回率和F值也有一定程度的提升.在Github数据集上测试表明:59%的搜索能在第1个搜索结果找到正确答案;67%的搜索能在前5个答案中找到正确答案;74%的搜索能在前10个答案中找到正确答案,并在召回率和F值也有一定程度的提升.针对大量数据的代码检索,本算法效果优于典型方法的搜索结果.
推荐文章
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
一种基于 Hownet 的词向量表示方法
词向量表示
Hownet
词语相似性计算
词义消岐
模式特征的几何代数多向量表示方法
模式识别
模式表示
几何代数
多向量
基于fastText模型的词向量表示改进算法
词向量
skip-gram模型
fastText模型
自然语言处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于向量表示的代码搜索方法
来源期刊 西华大学学报(自然科学版) 学科 工学
关键词 代码向量表示 代码搜索 语义编码 余弦相似度
年,卷(期) 2019,(5) 所属期刊栏目 计算机与信息技术
研究方向 页码范围 106-112
页数 7页 分类号 TP311.5
字数 3807字 语种 中文
DOI 10.3969/j.issn.1673-159X.2019.05.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘克剑 西华大学计算机与软件工程学院 27 202 7.0 13.0
2 林晗 成都理工大学管理科学学院 5 0 0.0 0.0
3 慕江林 西华大学计算机与软件工程学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (39)
共引文献  (24)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1954(1)
  • 参考文献(0)
  • 二级参考文献(1)
1971(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(9)
  • 参考文献(0)
  • 二级参考文献(9)
2016(5)
  • 参考文献(1)
  • 二级参考文献(4)
2017(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
代码向量表示
代码搜索
语义编码
余弦相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西华大学学报(自然科学版)
双月刊
1673-159X
51-1686/N
大16开
四川省成都市金牛区
1982
chi
出版文献量(篇)
3399
总下载数(次)
6
总被引数(次)
16135
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导