原文服务方: 西安交通大学学报       
摘要:
针对机器学习中含残缺项的数据不能被有效利用,导致分类和回归准确率不高的问题,提出了一种近似补全方法——k-ANNO方法.给定残缺的数据样本,该方法首先通过离线构建的图结构来近似搜索与该样本最接近的k个近邻顶点,然后采用快速二次规划估计各近邻的最优权重,最后基于权重值来补全样本中的残缺项,用户可以根据实际需求在补全效率与准确性之间折中.k-ANNO方法较好地解决了机器学习中普遍存在的数据残缺问题,有效抑制了数据残缺对分类和回归精度的干扰.利用多份公开数据集评估了k-ANNO方法的补全效果,结果表明:当加速比在2~10之间时,k-ANNO方法的分类错误率比已有的均值补全、C均值补全、自组织映射补全方法低1%~4%,回归均方根误差比已有方法低约0.5~2.0;当样本规模为4 000时,在不同加速比参数下,k-ANNO方法的计算效率比朴素k近邻方法高约35%~320%.
推荐文章
基于决策算法的残缺数据样本集补全方法
决策算法
数据样本集
决策表
化简
粗糙集
面向不确定残缺数据的大学生成绩预测方法
成绩预测
缺失数据
数据插补
数据挖掘
机器学习
随机森林模型
残缺数据型决策中的逆判方法及应用
双因素方差分析
残缺数据
评判与逆判
可比化
基于多视角缺失补全算法的数据挖掘研究
机器学习
多视角数据
视角缺失
核回归
核函数
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 针对机器学习中残缺数据的近似补全方法
来源期刊 西安交通大学学报 学科
关键词 机器学习 残缺项 二次规划 补全方法
年,卷(期) 2017,(10) 所属期刊栏目
研究方向 页码范围 142-148
页数 7页 分类号 TP391
字数 语种 中文
DOI 10.7652/xjtuxb201710023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 褚衍杰 12 37 4.0 5.0
2 曹卫权 5 13 2.0 3.0
3 李显 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (110)
共引文献  (36)
参考文献  (19)
节点文献
引证文献  (4)
同被引文献  (34)
二级引证文献  (10)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(7)
  • 参考文献(1)
  • 二级参考文献(6)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(11)
  • 参考文献(0)
  • 二级参考文献(11)
2012(13)
  • 参考文献(1)
  • 二级参考文献(12)
2013(13)
  • 参考文献(3)
  • 二级参考文献(10)
2014(15)
  • 参考文献(2)
  • 二级参考文献(13)
2015(9)
  • 参考文献(1)
  • 二级参考文献(8)
2016(10)
  • 参考文献(3)
  • 二级参考文献(7)
2017(7)
  • 参考文献(6)
  • 二级参考文献(1)
2017(7)
  • 参考文献(6)
  • 二级参考文献(1)
  • 引证文献(0)
  • 二级引证文献(0)
2018(6)
  • 引证文献(3)
  • 二级引证文献(3)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
机器学习
残缺项
二次规划
补全方法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
总被引数(次)
81310
论文1v1指导