基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统PDF论文抽取方法主要是单独基于规则的方法或单独基于机器学习的方法,其中基于规则的抽取方法在处理格式固定的数据方面具有明显的优势,通过制定简单的抽取规则即可准确定位并抽取数据;而在处理格式灵活的数据时,则需要制定相当复杂的规则,且不具备对论文格式的适应性,因而明显缺乏机器学习抽取方法的灵活性和准确性.为此,提出了一种基于规则与SVM相结合的PDF论文抽取方法.该方法充分利用规则方法与机器学习在信息抽取时的优点,在用简单的规则抽取格式固定的信息的基础上,选取样本特征构建训练集,并选择最优的核函数生成SVM模型,从而完成基于SVM方法的信息抽取.以SVM的抽取结果为主体,通过合理利用基于规则抽取的结果并制定适当的规则的方式对该方法进行验证.实验结果表明,该方法在论文元数据和章节标题等信息抽取方面具有较好的效果.
推荐文章
一种规则与统计相结合的汉语分词方法
中文信息处理
分词
语料库
交集型歧义
一种基于混沌粒子群算法的网页分类规则抽取方法
网页分类
规则抽取
混沌粒子群
一种新的基于Ontology的信息抽取方法
Ontology
语法分析
标注
规则
信息抽取
一种基于角色匹配的事件抽取方法
事件抽取
事件模式
语义角色标注
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种规则与SVM结合的论文抽取方法
来源期刊 计算机技术与发展 学科 工学
关键词 PDF论文 规则 支持向量机 样本特征 混合方法 信息抽取
年,卷(期) 2017,(10) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 24-29
页数 6页 分类号 TP301
字数 5191字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.10.006
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (36)
共引文献  (62)
参考文献  (11)
节点文献
引证文献  (7)
同被引文献  (15)
二级引证文献  (0)
1999(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(7)
  • 参考文献(1)
  • 二级参考文献(6)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(7)
  • 参考文献(2)
  • 二级参考文献(5)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
PDF论文
规则
支持向量机
样本特征
混合方法
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导