基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于KNN的主流文本分类策略适合样本容量较大的自动分类,但存在时间复杂度偏高、特征降维和样本剪裁易出现信息丢失等问题,本文提出一种基于特征库投影(FLP)的分类算法.该算法首先将所有训练样本的特征按照一定的权重策略构筑特征库,通过特征库保留所有样本特征信息;然后,通过投影函数,根据待分类样本的特征集合将每个分类的特征库映射为投影样本,通过计算新样本与各分类投影样本的相似度来完成分类.采用复旦大学国际数据库中心自然语言处理小组整理的语料库对所提出的分类算法进行验证,分小量训练文本和大量训练文本2个场景进行测试,并与基于聚类的KNN算法进行对比.实验结果表明:FLP分类算法不会丢失分类特征,分类精确度较高;分类效率与样本规模的增长不直接关联,时间复杂度低.
推荐文章
一种可靠信任推荐文本分类特征权重算法
文本分类
特征权重
可信计算
概率确定性密度
自然语言处理
一种基于语义标注特征的金融文本分类方法
文本分类
金融文本
语义标注
词汇—语义模式
有限状态机
一种基于PCA的组合特征提取文本分类方法
基于PCA的组合特征提取算法(PCA-CFEA)
主成分分析
特征提取
文本分类
一种改进的基于神经网络的文本分类算法
文本分类
神经网络
K最近邻
特征选择
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于特征库投影的文本分类算法
来源期刊 中南大学学报(自然科学版) 学科 工学
关键词 文本分类 KNN算法 特征库投影
年,卷(期) 2017,(7) 所属期刊栏目 机械工程·控制科学与工程
研究方向 页码范围 1782-1789
页数 8页 分类号 TP391
字数 4944字 语种 中文
DOI 10.11817/j.issn.1672-7207.2017.07.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐少华 湖南大学校园信息化建设与管理办公室 21 175 7.0 13.0
2 尹绍锋 湖南大学校园信息化建设与管理办公室 5 14 2.0 3.0
3 张娜 湖南大学信息工程与科学学院 6 51 2.0 6.0
4 荣辉桂 湖南大学信息工程与科学学院 9 262 4.0 9.0
5 郑蕙 湖南商学院旅游管理学院 6 8 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (79)
共引文献  (317)
参考文献  (18)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (0)
1967(3)
  • 参考文献(1)
  • 二级参考文献(2)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(10)
  • 参考文献(2)
  • 二级参考文献(8)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(11)
  • 参考文献(1)
  • 二级参考文献(10)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(10)
  • 参考文献(3)
  • 二级参考文献(7)
2012(6)
  • 参考文献(2)
  • 二级参考文献(4)
2013(7)
  • 参考文献(2)
  • 二级参考文献(5)
2014(9)
  • 参考文献(3)
  • 二级参考文献(6)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
KNN算法
特征库投影
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中南大学学报(自然科学版)
月刊
1672-7207
43-1426/N
大16开
湖南省长沙市中南大学校内
42-19
1956
chi
出版文献量(篇)
7515
总下载数(次)
5
总被引数(次)
79127
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导