基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法.在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同.提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题.实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性.
推荐文章
数学期望的计算方法与技巧
数学期望
定义
性质
公式
微分法
文本分类中基于词条聚合的特征抽取
特征抽取
词条聚合
TGSOM
权重计算
基于查询扩展词条加权的文本检索研究
扩展词条
权重计算
文本检索
一个可应用于WEB图片检索的综合词条权重模式
Web图片检索
相关文本
综合权重模式
词条
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词条数学期望的词条权重计算方法
来源期刊 计算机应用与软件 学科 工学
关键词 文本分类 词条权重 区分度 数学期望
年,卷(期) 2011,(4) 所属期刊栏目 基金项目论文
研究方向 页码范围 177-179
页数 分类号 TP391.1
字数 2556字 语种 中文
DOI 10.3969/j.issn.1000-386X.2011.04.052
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦锋 安徽工业大学计算机学院 81 783 15.0 25.0
2 程泽凯 安徽工业大学计算机学院 51 532 9.0 22.0
3 赵彦军 安徽工业大学计算机学院 2 6 1.0 2.0
4 陈奇明 安徽工业大学计算机学院 2 7 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (43)
共引文献  (554)
参考文献  (8)
节点文献
引证文献  (1)
同被引文献  (7)
二级引证文献  (2)
1975(2)
  • 参考文献(0)
  • 二级参考文献(2)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(5)
  • 参考文献(1)
  • 二级参考文献(4)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(10)
  • 参考文献(0)
  • 二级参考文献(10)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(11)
  • 参考文献(3)
  • 二级参考文献(8)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本分类
词条权重
区分度
数学期望
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导