作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。本文引入卡方统计量 CHI 和特征词在文本中的位置作为修正因子并结合传统 TF-IDF 权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,并应用支持向量机构建分类器,进行文本分类的实验验证。改进后的TF-IDF计算公式与传统TF-IDF相比,在查准率、查全率、F1测试值上都有一定程度的提升。
推荐文章
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
基于改进TF-IDF特征的中文文本分类系统
文本分类
自然语言处理
BOW模型
机器学习
改进TF-IDF特征
基于支持向量机的中文极短文本分类模型
支持向量机
jieba分词
极短文本分类
TF-IDF
基于支持向量机的中文文本自动分类研究
文本分类
支持向量机
招回率
准确率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于改进的TF-IDF和支持向量机的中文文本分类研究
来源期刊 软件 学科 工学
关键词 文本分类 TF-IDF 卡方统计量 支持向量机
年,卷(期) 2016,(12) 所属期刊栏目 设计研究与应用
研究方向 页码范围 141-145
页数 5页 分类号 TP181
字数 3972字 语种 中文
DOI 10.3969/j.issn.1003-6970.2016.12.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郭太勇 北京邮电大学网络空间安全学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (53)
共引文献  (154)
参考文献  (9)
节点文献
引证文献  (8)
同被引文献  (9)
二级引证文献  (3)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1960(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(7)
  • 引证文献(5)
  • 二级引证文献(2)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本分类
TF-IDF
卡方统计量
支持向量机
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
论文1v1指导