基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在信息检索的向量空间模型中,文本被形式化表示为由词语权重组成的向量.因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题.在这篇论文中,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法.它是一种使用词对文本集密度的贡献衡量该词的价值的方法.使用这种方法,我们能找出不损失文本有效信息的最小特征词语集,并且创造出更为合理权重计算方案.在文中还用了一种新的衡量权重好坏的标准--元打分法,来证明提出的方法是有效的.
推荐文章
基于类别信息和特征熵的文本特征权重计算
文本分类
文本特征
权重计算
类别频率
基于文本集密度的特征词选择与权重计算方法
文本分类
分词
特征选择
权重计算方案
一种基于概念层次的文本特征权重计算方法
概念空间
特征权重
概念层次
特征支持度
类别强度
基于文档类密度的特征权重算法
特征权重
文档类密度
文本分类
支持向量机
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本集密度的特征选择与权重计算方案
来源期刊 中文信息学报 学科 工学
关键词 计算机应用 中文信息处理 信息检索 文本集密度 权重计算方案 元打分法
年,卷(期) 2004,(1) 所属期刊栏目
研究方向 页码范围 42-47
页数 6页 分类号 TP391
字数 4556字 语种 中文
DOI 10.3969/j.issn.1003-0077.2004.01.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 石冰 山东大学计算机科学与技术学院 46 346 11.0 17.0
2 卢军 山东轻工业学院物理系 4 90 4.0 4.0
3 牛小飞 山东大学计算机科学与技术学院 4 142 3.0 4.0
4 吴科 山东大学计算机科学与技术学院 3 103 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (69)
同被引文献  (6)
二级引证文献  (124)
2004(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2004(3)
  • 引证文献(3)
  • 二级引证文献(0)
2005(3)
  • 引证文献(2)
  • 二级引证文献(1)
2006(9)
  • 引证文献(3)
  • 二级引证文献(6)
2007(20)
  • 引证文献(10)
  • 二级引证文献(10)
2008(14)
  • 引证文献(4)
  • 二级引证文献(10)
2009(19)
  • 引证文献(8)
  • 二级引证文献(11)
2010(14)
  • 引证文献(9)
  • 二级引证文献(5)
2011(8)
  • 引证文献(5)
  • 二级引证文献(3)
2012(15)
  • 引证文献(4)
  • 二级引证文献(11)
2013(8)
  • 引证文献(0)
  • 二级引证文献(8)
2014(23)
  • 引证文献(8)
  • 二级引证文献(15)
2015(15)
  • 引证文献(3)
  • 二级引证文献(12)
2016(8)
  • 引证文献(1)
  • 二级引证文献(7)
2017(12)
  • 引证文献(4)
  • 二级引证文献(8)
2018(16)
  • 引证文献(4)
  • 二级引证文献(12)
2019(5)
  • 引证文献(1)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
计算机应用
中文信息处理
信息检索
文本集密度
权重计算方案
元打分法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
论文1v1指导