原文服务方: 计算机应用研究       
摘要:
文本挖掘之前首先要对文本集进行有效的特征选择.传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务.针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念.首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算;然后通过改进的K-means聚类算法对词条特征模型进行多次聚类完成文本特征选择.实验结果表明,与传统特征选择算法相比,该算法在获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务.
推荐文章
基于相对密度的多耦合文本聚类算法
文本聚类
空间向量模型
相对密度
文本相似度
核心对象
一种基于改进K-means聚类的文本特征选择模型
特征选择
特征降维
特征聚类
文本分类
基于主题概念聚类的中文文本聚类
中文文本聚类
HowNet
主题概念
Chmeleon算法
一种基于聚类加权的文本特征生成算法
文本分类
特征生成
权值计算
特征聚类
信息熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词条属性聚类的文本特征选择算法
来源期刊 计算机应用研究 学科
关键词 文本特征选择 词条属性 词位置 词间关联性 关联规则算法 K-均值算法
年,卷(期) 2017,(2) 所属期刊栏目 算法研究探讨
研究方向 页码范围 369-372,377
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2017.02.011
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王红军 14 82 6.0 8.0
2 王伦文 7 43 4.0 6.0
3 张群 2 22 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (57)
共引文献  (183)
参考文献  (12)
节点文献
引证文献  (6)
同被引文献  (12)
二级引证文献  (3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2009(8)
  • 参考文献(0)
  • 二级参考文献(8)
2010(5)
  • 参考文献(1)
  • 二级参考文献(4)
2011(11)
  • 参考文献(4)
  • 二级参考文献(7)
2012(7)
  • 参考文献(3)
  • 二级参考文献(4)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2017(4)
  • 引证文献(4)
  • 二级引证文献(0)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
文本特征选择
词条属性
词位置
词间关联性
关联规则算法
K-均值算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导