基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统.对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类.由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项.实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的.该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍.该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果.
推荐文章
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
基于N元模型的维吾尔文文本分类技术研究
N元
文本分类
维吾尔文
N元词典
相似度
曼哈顿距离
骰子测量
基于汉字字频向量的中文文本自动分类系统
文本分类
中文文本自动分类
字频向量
基于实例的映射函数
语料库
汉字
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于N元汉字串模型的文本表示和实时分类的研究与实现
来源期刊 计算机工程与应用 学科 工学
关键词 文本分类 中文信息处理 向量空间模型 N元汉字串 关键词匹配
年,卷(期) 2005,(5) 所属期刊栏目 学术探讨
研究方向 页码范围 88-91
页数 4页 分类号 TP391.12
字数 5392字 语种 中文
DOI 10.3321/j.issn:1002-8331.2005.05.031
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 白硕 中国科学院计算技术研究所软件研究室 50 2124 21.0 46.0
2 谭建龙 中国科学院计算技术研究所软件研究室 43 444 11.0 19.0
3 王映 中国科学院计算技术研究所软件研究室 3 23 2.0 3.0
7 常毅 中国科学院计算技术研究所软件研究室 1 19 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (94)
参考文献  (5)
节点文献
引证文献  (19)
同被引文献  (12)
二级引证文献  (86)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(2)
  • 二级参考文献(0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(2)
  • 引证文献(0)
  • 二级引证文献(2)
2007(10)
  • 引证文献(1)
  • 二级引证文献(9)
2008(12)
  • 引证文献(4)
  • 二级引证文献(8)
2009(12)
  • 引证文献(3)
  • 二级引证文献(9)
2010(12)
  • 引证文献(1)
  • 二级引证文献(11)
2011(7)
  • 引证文献(2)
  • 二级引证文献(5)
2012(8)
  • 引证文献(2)
  • 二级引证文献(6)
2013(9)
  • 引证文献(3)
  • 二级引证文献(6)
2014(5)
  • 引证文献(1)
  • 二级引证文献(4)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(6)
  • 引证文献(0)
  • 二级引证文献(6)
2017(5)
  • 引证文献(0)
  • 二级引证文献(5)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(10)
  • 引证文献(0)
  • 二级引证文献(10)
研究主题发展历程
节点文献
文本分类
中文信息处理
向量空间模型
N元汉字串
关键词匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导