基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系.针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法.该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等,突出了文本中关键词的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息.通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高. 到关键性作用的特征,而且不能很好地揭示文本中词与词的关系.针对此缺点,提出了一种新的基于关键词语和词语共观频率的特征选择和权重计算方法.该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等,突出了文本中关键词的贡献, 补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息.通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高. 到关键性作用的特征,而且不能很好地揭示文本中词与词的关系.针对此缺点,提出了一种新的基于关键词语和
推荐文章
基于规范文本的特征词提取技术研究
规范文本
特征词提取
加权函数
位置因子
基于特征词关联性的同义词集挖掘算法
自然语言处理
同义词集
特征词
概念
基于特征词匹配的政策文本分类算法研究与实现
字符串匹配算法
阈值计算
文本分类
基于改进的TF-IDF文本特征词提取算法研究
TF-IDF
特征词提取
词长
文本预处理
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词语关联的文本特征词提取方法
来源期刊 计算机应用 学科 工学
关键词 词语关联 词共现率 向量空间模型 特征提取 权重计算
年,卷(期) 2007,(12) 所属期刊栏目 数据库与数据挖掘
研究方向 页码范围 3009-3012
页数 4页 分类号 TP391.1
字数 4775字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李志蜀 四川大学计算机学院 215 2961 28.0 46.0
2 张意 四川大学计算机学院 24 123 6.0 11.0
3 廖浩 四川大学计算机学院 2 28 2.0 2.0
4 王秋野 四川大学计算机学院 2 28 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (28)
共引文献  (143)
参考文献  (8)
节点文献
引证文献  (25)
同被引文献  (34)
二级引证文献  (44)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(1)
  • 二级参考文献(0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(9)
  • 参考文献(1)
  • 二级参考文献(8)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(5)
  • 参考文献(2)
  • 二级参考文献(3)
2005(6)
  • 参考文献(3)
  • 二级参考文献(3)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(4)
  • 引证文献(4)
  • 二级引证文献(0)
2010(4)
  • 引证文献(3)
  • 二级引证文献(1)
2011(6)
  • 引证文献(2)
  • 二级引证文献(4)
2012(4)
  • 引证文献(3)
  • 二级引证文献(1)
2013(7)
  • 引证文献(2)
  • 二级引证文献(5)
2014(8)
  • 引证文献(3)
  • 二级引证文献(5)
2015(11)
  • 引证文献(1)
  • 二级引证文献(10)
2016(8)
  • 引证文献(1)
  • 二级引证文献(7)
2017(8)
  • 引证文献(4)
  • 二级引证文献(4)
2018(4)
  • 引证文献(1)
  • 二级引证文献(3)
2019(5)
  • 引证文献(1)
  • 二级引证文献(4)
研究主题发展历程
节点文献
词语关联
词共现率
向量空间模型
特征提取
权重计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导