基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在机器学习和数据挖掘实际应用中,针对分类训练集的选取,通常要求训练集中每一类所包含的数据在数量上要尽可能的"均衡".本文以非均衡训练集与分类学习效率关系研究为依据,给出了"均匀度"和"内聚度"两种类型的训练集非均衡程度因素的概念;"均匀度"是用来描述训练集类之间(between-class)的非均衡程度, 其含义是指训练集不同类之间数据数量的非均衡程度;"内聚度"是用来描述训练集类内部(within-class)的非均衡程度,指训练集中不同类在空间分布上的线性相关程度,通过训练集数据之间的相关程度,构建出训练集的网络结构,运用一种能体现训练集内聚性的网络拓扑结构的指标-网络社区结构作为度量,提出了基于网络社区模块结构的非均衡训练集度量方法,并指出了高均匀度和高内聚度是选取"优良"分类训练集的关键因素.通过对UCI 标准训练集的实验,结果验证本方法作为选取训练集标准的有效性.
推荐文章
基于相异度度量的图聚类方法
图聚类
无向非加权图
邻接矩阵
相异度
基于用例的软件开发进度度量方法
软件度量
进度度量
软件估算
用例点
迭代
用例
非均衡数据集下基于孪生卷积网络的变压器绕组变形故障识别方法
孪生网络
电力变压器
绕组变形故障
非均衡数据集
基于凸集的结构非概率可靠性度量研究
非概率可靠性
结构可靠性
极限状态函数
凸集模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于网络社区结构的训练集非均衡程度度量方法
来源期刊 小型微型计算机系统 学科 工学
关键词 训练集非均衡问题 复杂网络 网络社区结构 均匀度 内聚度
年,卷(期) 2007,(8) 所属期刊栏目 软件与数据库技术
研究方向 页码范围 1427-1433
页数 7页 分类号 TP18
字数 7899字 语种 中文
DOI 10.3969/j.issn.1000-1220.2007.08.017
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 迟忠先 大连理工大学计算机科学工程系 86 1209 19.0 31.0
2 莫宏伟 哈尔滨工程大学自动化学院 93 922 17.0 26.0
3 岳训 大连理工大学计算机科学工程系 7 16 3.0 3.0
7 郝艳友 大连理工大学计算机科学工程系 7 17 3.0 3.0
8 葛平俱 山东农业大学信息科学与工程学院 23 151 5.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (29)
参考文献  (7)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(2)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
训练集非均衡问题
复杂网络
网络社区结构
均匀度
内聚度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导