原文服务方: 计算机应用研究       
摘要:
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法.该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型.引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度.通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性.
推荐文章
基于类别相关的新文本特征提取方法
正相关
强相关
文本分类
特征降维
特征提取
基于LSTM-Attention神经网络的文本特征提取方法
LSTM-Attention
注意力机制
文本分类
神经网络
文本特征提取
softmax
基于语义列表的中文文本聚类算法
文本聚类
文本表示
语义列表
相似度计算
聚簇表示
基于CCA的图像语义特征提取的分析与研究
图像语义
典型相关分析
局部二值模式
特征参数
特征融合
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多语义因子分层聚类的文本特征提取方法
来源期刊 计算机应用研究 学科
关键词 语义 文本特征 分层聚类 词向量
年,卷(期) 2020,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2951-2955,2960
页数 6页 分类号 TP181
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2019.05.0189
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 柳青 40 192 7.0 12.0
2 张德海 11 68 4.0 8.0
3 杨云 6 79 3.0 6.0
4 王靖 1 0 0.0 0.0
5 赵华 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (116)
共引文献  (42)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(1)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(7)
  • 参考文献(0)
  • 二级参考文献(7)
2014(10)
  • 参考文献(0)
  • 二级参考文献(10)
2015(14)
  • 参考文献(0)
  • 二级参考文献(14)
2016(24)
  • 参考文献(1)
  • 二级参考文献(23)
2017(16)
  • 参考文献(1)
  • 二级参考文献(15)
2018(9)
  • 参考文献(5)
  • 二级参考文献(4)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
语义
文本特征
分层聚类
词向量
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导