基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型--自划分模型--来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法,在特征数为500时分类的F1值提高6.58%.
推荐文章
基于特征权重的词向量文本表示模型
TF-IDF模型
N-Gram模型
Glove模型
文本表示
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
Web文本表示及其分类研究
Web文本挖掘
分类
聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域词典的文本特征表示
来源期刊 计算机研究与发展 学科 工学
关键词 文本分类 知识获取 领域知识 文本表示
年,卷(期) 2005,(12) 所属期刊栏目 信息处理
研究方向 页码范围 2155-2160
页数 6页 分类号 TP391
字数 5490字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姚天顺 东北大学自然语言处理实验室 61 1723 24.0 40.0
2 朱靖波 东北大学自然语言处理实验室 44 806 17.0 28.0
3 陈文亮 东北大学自然语言处理实验室 10 210 7.0 10.0
4 朱慕华 东北大学自然语言处理实验室 5 117 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (56)
参考文献  (4)
节点文献
引证文献  (66)
同被引文献  (54)
二级引证文献  (139)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(3)
  • 参考文献(3)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(3)
  • 引证文献(3)
  • 二级引证文献(0)
2007(2)
  • 引证文献(2)
  • 二级引证文献(0)
2008(9)
  • 引证文献(8)
  • 二级引证文献(1)
2009(8)
  • 引证文献(6)
  • 二级引证文献(2)
2010(9)
  • 引证文献(4)
  • 二级引证文献(5)
2011(15)
  • 引证文献(6)
  • 二级引证文献(9)
2012(25)
  • 引证文献(7)
  • 二级引证文献(18)
2013(22)
  • 引证文献(7)
  • 二级引证文献(15)
2014(18)
  • 引证文献(3)
  • 二级引证文献(15)
2015(24)
  • 引证文献(3)
  • 二级引证文献(21)
2016(17)
  • 引证文献(4)
  • 二级引证文献(13)
2017(20)
  • 引证文献(6)
  • 二级引证文献(14)
2018(14)
  • 引证文献(2)
  • 二级引证文献(12)
2019(14)
  • 引证文献(4)
  • 二级引证文献(10)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
文本分类
知识获取
领域知识
文本表示
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
相关基金
教育部科学技术研究项目
英文译名:Key Project of Chinese Ministry of Education
官方网址:http://www.dost.moe.edu.cn
项目类型:教育部科学技术研究重点项目
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导