基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用.针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法.该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况.实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率.
推荐文章
文本索引词项相对权重计算方法与应用
知识管理
文本分类
索引词权重
文本分类中一种改进的特征项权重计算方法
TF-IDF
类间区分度
类内贡献度
文本分类
一种基于概念层次的文本特征权重计算方法
概念空间
特征权重
概念层次
特征支持度
类别强度
一种有效的特征权重计算方法
文本分类
向量空间模型
特征权重
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 新的短文本特征权重计算方法
来源期刊 计算机应用 学科 工学
关键词 短文本 特征权重 不均衡样本 文本分类
年,卷(期) 2013,(8) 所属期刊栏目 人工智能
研究方向 页码范围 2280-2282,2292
页数 4页 分类号 TP311
字数 4279字 语种 中文
DOI 10.11772/j.issn.1001-9081.2013.08.2280
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邓一贵 重庆大学计算机学院 18 196 7.0 13.0
5 马雯雯 重庆大学计算机学院 2 98 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (62)
参考文献  (9)
节点文献
引证文献  (24)
同被引文献  (35)
二级引证文献  (37)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(6)
  • 参考文献(1)
  • 二级参考文献(5)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(5)
  • 引证文献(4)
  • 二级引证文献(1)
2016(11)
  • 引证文献(4)
  • 二级引证文献(7)
2017(13)
  • 引证文献(4)
  • 二级引证文献(9)
2018(11)
  • 引证文献(4)
  • 二级引证文献(7)
2019(11)
  • 引证文献(4)
  • 二级引证文献(7)
2020(6)
  • 引证文献(0)
  • 二级引证文献(6)
研究主题发展历程
节点文献
短文本
特征权重
不均衡样本
文本分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
总被引数(次)
209512
论文1v1指导