基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
代码克隆检测是软件工程领域的一项重要任务, 对于语义相似但语法差距较大的四型代码克隆的检测尤为困难. 基于深度学习的方法在四型代码克隆的检测上已经取得了较好的效果, 但是使用人工标注的代码克隆对进行监督学习的成本较高. 提出了两种简单有效的预训练策略来增强基于深度学习的代码克隆检测模型的代码表示, 以减少监督学习模型中对大规模训练数据集的需求. 首先, 使用ngram子词丰富对词嵌入模型进行预训练, 以增强克隆检测模型对词表之外的词的表示. 同时, 采用函数名预测作为辅助任务对克隆检测模型参数进行预训练.通过这两个预训练策略, 可以得到一个有更准确的代码表示能力的模型, 模型被用来作为克隆检测中的代码表示模型并在克隆检测任务上进行有监督训练. 在标准数据集BigCloneBench (BCB)和OJClone上进行实验. 结果表明采用两种预训练增强的模型仅仅使用极少量的训练样例(BCB上100个克隆对和100个非克隆对, OJClone上200个克隆对和200个非克隆对)就能达到现有方法使用超过6百万个训练样例得到的结果.
推荐文章
克隆代码技术研究综述
克隆代码
克隆检测
克隆进化
克隆管理
克隆重构
克隆代码分析方法研究
克隆代码
克隆代码分析
克隆代码维护
缺陷检测
克隆代码检测技术综述
克隆代码
自动检测
可维护性
重构
再工程
软件维护
软件克隆检测技术研究
软件克隆
克隆检测
代码克隆
模型克隆
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 预训练增强的代码克隆检测技术
来源期刊 软件学报 学科 工学
关键词 代码克隆 预训练 LSTM
年,卷(期) 2022,(5) 所属期刊栏目 领域软件工程专题|SPECIAL TOPIC ON DOMAIN-SPECIFIC SOFTWARE ENGINEERING
研究方向 页码范围 1758-1773
页数 16页 分类号 TP311
字数 语种 中文
DOI 10.13328/j.cnki.jos.006560
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
代码克隆
预训练
LSTM
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导