作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着开源软件数量的增多,从开源软件社区中有效检索到所需的开源软件是具有挑战性的工作.现有方法通常是:首先,人工给每个软件赋予多个描述其功能、用途的标注;然后,通过关键词匹配寻找用户所需的软件.由于其简单、方便,基于标注进行软件检索得到了广泛的应用.然而,用户通常不愿意主动为其上载的开源软件提供标注,这使得根据用户上载软件的文字描述信息,从众多备选软件标注中为其自动选择能够表征其功能、用途的标注,成为了有效检索该软件的关键.把开源软件自动标注形式化为一个代价敏感多标记学习问题,并提出了一种新型代价敏感多标记学习方法 ML-CKNN.该方法通过在多标记学习中引入代价信息,有效缓解了对每一个标注而言具有该标注的示例与不具有该标注的示例分布非均衡性给多标记学习造成的影响.在3个开源软件社区上的实验结果表明:所提出的ML-CKNN方法能够为新上载的开源软件提供高质量的标注,其标注性能显著优于现有方法.
推荐文章
多标签代价敏感分类集成学习算法
多标签分类
代价敏感学习
集成学习
自适应提升算法
多分类
代价敏感数据的多标记特征选择算法
特征选择
属性约简
代价敏感
粗糙集
粒计算
多标记学习
信息熵
正态分布
代价敏感多主题学习的邮件过滤算法
潜在狄利克雷分布
支持向量机
垃圾邮件过滤
文本分类
多示例学习
基于代价敏感主动学习算法的2型糖尿病诊断
糖尿病
诊断模型
代价敏感分类
主动学习
逻辑回归
支持向量机
人工神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于代价敏感多标记学习的开源软件分类
来源期刊 软件学报 学科 工学
关键词 软件挖掘 机器学习 多标记学习 代价敏感学习 软件自动标注
年,卷(期) 2014,(9) 所属期刊栏目 大数据分析专刊
研究方向 页码范围 1982-1991
页数 10页 分类号 TP311
字数 8707字 语种 中文
DOI 10.13328/j.cnki.jos.004639
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 韩乐 1 7 1.0 1.0
2 黎铭 1 7 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (7)
同被引文献  (7)
二级引证文献  (4)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
软件挖掘
机器学习
多标记学习
代价敏感学习
软件自动标注
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
江苏省自然科学基金
英文译名:Natural Science Foundation of Jiangsu Province
官方网址:http://www.jsnsf.gov.cn/News.aspx?a=37
项目类型:
学科类型:
论文1v1指导