作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用.目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点.为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象.基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标.综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型.
推荐文章
多类型分类器融合的文本分类方法研究
文本分类
分类器融合
主成分分析
潜在语义索引
采用类别相似度聚合的关联文本分类方法
文本分类
关联规则
类别相似度
聚合
基于类别空间模型的文本分类系统的设计与实现
文本分类
向量空间模型
类别空间模型
基于重要事件的文本分类方法研究
文本分类
文本表示
重要事件
SVM
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 多类别文本分类方法比较研究
来源期刊 计算机技术与发展 学科 工学
关键词 文本分类 多类别 机器学习 文本特征表示 分类算法
年,卷(期) 2022,(1) 所属期刊栏目 大数据分析与挖掘
研究方向 页码范围 54-60
页数 7页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1673-629X.2022.01.010
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
多类别
机器学习
文本特征表示
分类算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
论文1v1指导