基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
特征项是微博话题检测中的重要因素,特征项的提取结果直接影响话题检测计算的复杂度和准确度.本文提出了一种结合CHI方法和改进TF-IDF算法的方法来提取特征项,从而来降低空间向量的维数.本文考虑到了中文词中存在一义多词或一词多义的缘故,对传统的归一化TF-IDF算法进行了一些改进,即在计算词的权重时结合了词的语义.通过该算法来提取特征项不仅可以降低建空间向量时的维度,而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故本文在改进TF-IDF算法的同时还结合了CHI统计方法,该方法可以发现一些有利于文本分类结果的低频词.故能从一定程度上提高话题检测的准确率和速度.
推荐文章
结合改进的CHI统计方法的TF-IDF算法优化
文本分类
CHI统计
TF-IDF算法
特征选择
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
结合改进的CHI统计方法的TF-IDF算法优化
文本分类
CHI统计
TF-IDF算法
特征选择
基于改进TF-IDF的微博短文本特征词提取算法
TF-IDF
微博短文本
特征词提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结合CHI统计和改进TF-IDF算法的微博特征项提取
来源期刊 电子世界 学科
关键词 CHI TF-IDF 特征提取 词频
年,卷(期) 2016,(22) 所属期刊栏目 探索与观察
研究方向 页码范围 67-68
页数 2页 分类号
字数 2786字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱燕飞 广东工业大学自动化学院 20 104 5.0 9.0
2 郑卜松 广东工业大学自动化学院 2 4 1.0 2.0
3 严萌 广东工业大学自动化学院 2 3 1.0 1.0
4 徐迅 广东工业大学自动化学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (21)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (7)
二级引证文献  (5)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
CHI
TF-IDF
特征提取
词频
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子世界
半月刊
1003-0522
11-2086/TN
大16开
北京市
2-892
1979
chi
出版文献量(篇)
36164
总下载数(次)
96
总被引数(次)
46655
论文1v1指导