原文服务方: 计算机应用研究       
摘要:
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项.这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量.
推荐文章
一种新型文本自动分类系统的研究与实现
文本分类
中文信息处理
向量空间模型
文本自动分类关键技术研究
中文分词
向量空间模型
文本分类
支持向量机
基于向量空间模型的文本自动分类系统的研究与实现
文本分类
中文信息处理
向量空间模型
自动文本分类技术研究
文本分类
支持向量机
最小二乘支持向量机
分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本自动分类系统文本预处理方法的研究
来源期刊 计算机应用研究 学科
关键词 文本分类 文本预处理 停用词 中文分词
年,卷(期) 2005,(2) 所属期刊栏目 研究探讨
研究方向 页码范围 85-86
页数 2页 分类号 TP319
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2005.02.029
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙炳达 5 135 4.0 5.0
2 王义 广东工业大学自动化学院 4 94 2.0 4.0
3 周钦强 广东工业大学自动化学院 3 94 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (359)
参考文献  (5)
节点文献
引证文献  (88)
同被引文献  (43)
二级引证文献  (126)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2005(3)
  • 引证文献(3)
  • 二级引证文献(0)
2006(4)
  • 引证文献(4)
  • 二级引证文献(0)
2007(3)
  • 引证文献(2)
  • 二级引证文献(1)
2008(9)
  • 引证文献(3)
  • 二级引证文献(6)
2009(12)
  • 引证文献(3)
  • 二级引证文献(9)
2010(11)
  • 引证文献(5)
  • 二级引证文献(6)
2011(22)
  • 引证文献(8)
  • 二级引证文献(14)
2012(9)
  • 引证文献(2)
  • 二级引证文献(7)
2013(15)
  • 引证文献(9)
  • 二级引证文献(6)
2014(19)
  • 引证文献(9)
  • 二级引证文献(10)
2015(21)
  • 引证文献(8)
  • 二级引证文献(13)
2016(19)
  • 引证文献(11)
  • 二级引证文献(8)
2017(23)
  • 引证文献(5)
  • 二级引证文献(18)
2018(23)
  • 引证文献(12)
  • 二级引证文献(11)
2019(17)
  • 引证文献(4)
  • 二级引证文献(13)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
文本分类
文本预处理
停用词
中文分词
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导