基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类.实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的Macro_F1分别平均提高1.5%和3.1%,在Micro_F1上分别平均提高2.3%和5.3%.本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果.
推荐文章
基于改进KPCA与SVM的题名分类研究
题名分类
核主成分分析
数据降维
特征提取
数据挖掘
模式识别
基于多重继承与信息内容的知网词语相似度计算
词语相似度
知网
多重继承
信息内容
描述逻辑
基于知网语义相关度计算的词义消歧方法
汉语自动分词
词义消歧
语义相关度
知网
基于语义扩展的产品创新设计信息获取研究
创新设计
语义网络
信息获取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于知网语义特征扩展的题名信息分类
来源期刊 图书馆杂志 学科
关键词 期刊论文题名 短文本分类 知网 LDA
年,卷(期) 2017,(2) 所属期刊栏目 理论探索
研究方向 页码范围 11-19
页数 9页 分类号
字数 语种 中文
DOI 10.13663/j.cnki.lj.2017.2.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘康 21 52 4.0 6.0
2 李湘东 37 187 8.0 13.0
3 丁丛 7 37 3.0 6.0
4 廖香鹏 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (76)
共引文献  (381)
参考文献  (15)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(8)
  • 参考文献(0)
  • 二级参考文献(8)
2005(11)
  • 参考文献(1)
  • 二级参考文献(10)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(15)
  • 参考文献(3)
  • 二级参考文献(12)
2010(11)
  • 参考文献(3)
  • 二级参考文献(8)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(10)
  • 参考文献(1)
  • 二级参考文献(9)
2013(6)
  • 参考文献(3)
  • 二级参考文献(3)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
期刊论文题名
短文本分类
知网
LDA
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
图书馆杂志
月刊
1000-4254
31-1108/G2
16开
上海市长乐路746号
4-332
1982
chi
出版文献量(篇)
6452
总下载数(次)
6
论文1v1指导