基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。
推荐文章
基于加权变异免疫算法的微钙化点特征选择
免疫算法
加权变异
微钙化点
特征选择
乳房X线照片
基于矩阵加权的VMOApriori算法
矩阵加权
频繁项集
压缩
向量
VMOApriori算法
基于加权矩阵的HEVC信息隐藏算法
HEVC
加权矩阵
信息隐藏
DCT
一种面向聚类的加权特征选择算法
加权特征选择
聚类
信息熵
邻域分析
特征权值向量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字矩阵交运算的n-grams特征选择加权算法
来源期刊 计算机工程与应用 学科 工学
关键词 汉语单双字识别 字矩阵 交运算 特征选择 特征加权
年,卷(期) 2016,(22) 所属期刊栏目 大数据与云计算
研究方向 页码范围 86-92
页数 7页 分类号 TP391.1
字数 6041字 语种 中文
DOI 10.3778/j.issn.1002-8331.1503-0313
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邵良杉 辽宁工程技术大学系统工程研究所 189 1464 18.0 27.0
2 邱云飞 辽宁工程技术大学软件学院 70 620 13.0 22.0
3 刘世兴 辽宁工程技术大学软件学院 5 16 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (31)
共引文献  (36)
参考文献  (8)
节点文献
引证文献  (1)
同被引文献  (4)
二级引证文献  (4)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(6)
  • 参考文献(1)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(5)
  • 参考文献(1)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(3)
  • 参考文献(3)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
汉语单双字识别
字矩阵
交运算
特征选择
特征加权
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导