基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法.一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度.通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值.对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合.实验表明,该方法能够有效提高短文本特征提取的效果.
推荐文章
基于类别相关的新文本特征提取方法
正相关
强相关
文本分类
特征降维
特征提取
融合词语类别特征和语义的短文本分类方法
短文本分类
隐含狄利克雷分布
词汇特征
语义特征
特征选择
融合耦合距离区分度和强类别特征的短文本相似度计算方法
文本挖掘
自然语言处理
文本聚类
社会网络
耦合关系
特征提取
语义消歧
相似度计算
基于多语义因子分层聚类的文本特征提取方法
语义
文本特征
分层聚类
词向量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 融合词语共现距离和类别信息的短文本特征提取方法
来源期刊 计算机工程与科学 学科 工学
关键词 短文本 共现距离 期望交叉熵 特征提取
年,卷(期) 2018,(9) 所属期刊栏目 人工智能与数据挖掘
研究方向 页码范围 1689-1695
页数 7页 分类号 TP391.4
字数 5849字 语种 中文
DOI 10.3969/j.issn.1007-130X.2018.09.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马慧芳 西北师范大学计算机科学与工程学院 59 520 12.0 21.0
5 张旭鹏 西北师范大学计算机科学与工程学院 2 2 1.0 1.0
6 王双 西北师范大学计算机科学与工程学院 2 2 1.0 1.0
7 邢玉莹 西北师范大学计算机科学与工程学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (3)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
短文本
共现距离
期望交叉熵
特征提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导