原文服务方: 计算机应用研究       
摘要:
非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键.针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding).该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,从理论上推导并证明CZT编码对特征的压缩率至少为每个特征取值空间的平均大小,同时证明经过CZT编码后的问题具有更简单的优化目标形式,有利于设计后续机器学习算法;最后通过采用相同结构的神经网络进行分类,在Titanic数据集下对比CZT算法和one-hot算法编码数据后对分类器性能的影响,结果表明CZT编码的数据的分类准确率和稳定性均有提升.
推荐文章
基于改进局部线性特征编码方法的图像分类
视觉词袋
稀疏表示
图像分类
特征编码
基于混合分类和矩形划分的快速分形编码方法
分形图像压缩
迭代函数系统
矩形划分
自适应分类
混合分类
数字流域模型的河网编码方法
河网编码
数字流域
河网拓扑关系
二叉树
部分信道特征下的物理层安全编码方法
人工噪声
波束成型
交织LDPC
私密中断概率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 非数值化特征的条件概率区域划分(CZT)编码方法
来源期刊 计算机应用研究 学科
关键词 深度学习 非数值化特征 特征工程 联合条件概率编码
年,卷(期) 2020,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1400-1405
页数 6页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.10.0818
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 沈超 西安交通大学智能网络与网络安全教育部重点实验室 10 45 4.0 6.0
2 贺亮 10 21 3.0 4.0
3 李赟 7 11 2.0 3.0
4 徐正国 9 17 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度学习
非数值化特征
特征工程
联合条件概率编码
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导