基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.
推荐文章
面向文本分类的中文文本语义表示方法
分类
知识表示
相似度
文本语义图
基于SVM的中文文本分类算法
支持向量机
特征提取
文本分类
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
使用Logistic回归模型进行中文文本分类
Logistic回归模型
支持向量机
文本分类
特征
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文文本分类中的文本表示因素比较
来源期刊 中国科学院研究生院学报 学科 工学
关键词 中文文本分类 文本表示 向量化
年,卷(期) 2009,(3) 所属期刊栏目 论文
研究方向 页码范围 400-407
页数 8页 分类号 TP31
字数 6990字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 荆继武 中国科学院研究生院信息安全国家重点实验室 63 768 16.0 26.0
2 向继 中国科学院研究生院信息安全国家重点实验室 22 315 7.0 17.0
3 张爱华 中国科技术大学电子工程与信息科学系 3 63 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (340)
参考文献  (5)
节点文献
引证文献  (34)
同被引文献  (13)
二级引证文献  (40)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(8)
  • 参考文献(0)
  • 二级参考文献(8)
2004(5)
  • 参考文献(1)
  • 二级参考文献(4)
2005(9)
  • 参考文献(2)
  • 二级参考文献(7)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(6)
  • 引证文献(6)
  • 二级引证文献(0)
2011(5)
  • 引证文献(5)
  • 二级引证文献(0)
2012(4)
  • 引证文献(4)
  • 二级引证文献(0)
2013(7)
  • 引证文献(6)
  • 二级引证文献(1)
2014(5)
  • 引证文献(3)
  • 二级引证文献(2)
2015(7)
  • 引证文献(2)
  • 二级引证文献(5)
2016(10)
  • 引证文献(3)
  • 二级引证文献(7)
2017(13)
  • 引证文献(2)
  • 二级引证文献(11)
2018(11)
  • 引证文献(2)
  • 二级引证文献(9)
2019(6)
  • 引证文献(1)
  • 二级引证文献(5)
研究主题发展历程
节点文献
中文文本分类
文本表示
向量化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国科学院大学学报
双月刊
2095-6134
10-1131/N
大16开
北京玉泉路19号(甲)
82-583
1984
chi
出版文献量(篇)
2247
总下载数(次)
2
总被引数(次)
15229
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导