基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了提高中文文本分类的效率与精度,设计一种新型的分类器.该分类器采用基于语料库的正向扫描统计分词.在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类.实验证明该分类器简单有效.
推荐文章
一种基于情感词典和朴素贝叶斯的中文文本情感分类方法
文本情感分类
朴素贝叶斯
情感词典
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
一种改进的朴素贝叶斯文本分类算法
贝叶斯
文本分类
特征词
多变量贝努力模型
基于AdaBoost-Bayes算法的中文文本分类系统
中文分词
文本分类
AdaBoost
Bayes
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于类别强信息特征和贝叶斯算法的中文文本分类器
来源期刊 计算机应用与软件 学科 工学
关键词 中文文本分类 特征选择 特征权重 分类算法
年,卷(期) 2014,(8) 所属期刊栏目 信息技术交流
研究方向 页码范围 330-333
页数 4页 分类号 TP18
字数 4655字 语种 中文
DOI 10.3969/j.issn.1000-386x.2014.08.083
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙培立 大连海洋大学经济管理学院 8 16 2.0 4.0
2 陈艳秋 大连东软信息技术学院计算机科学与技术系 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (57)
参考文献  (7)
节点文献
引证文献  (10)
同被引文献  (13)
二级引证文献  (7)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(1)
  • 参考文献(0)
  • 二级参考文献(1)
2018(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
  • 引证文献(0)
  • 二级引证文献(0)
2015(4)
  • 引证文献(4)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(1)
  • 二级引证文献(3)
2019(4)
  • 引证文献(1)
  • 二级引证文献(3)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
中文文本分类
特征选择
特征权重
分类算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导