基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor, LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。
推荐文章
高校科研平台青年科研人员成长机制研究
高校科研平台
资源获取
有效激励
科研人员学术出版素养量表的研制
学术出版素养
信息素养
媒介素养
科研人员
基于页面分块与信息熵的评论发现及抽取
评论抽取
自动
语义块
军事航空医学科研人员的信息需求及有效获取信息的对策
航天医学
军事人员
信息获取
医学信息学应用
信息存储和检索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LCA分块算法的大学科研人员信息抽取
来源期刊 计算机科学与探索 学科 工学
关键词 信息抽取 最近公共祖先(LCA) 基本语义块 有效语义块 关系映射
年,卷(期) 2016,(6) 所属期刊栏目 学术研究
研究方向 页码范围 761-772
页数 12页 分类号 TP391
字数 9824字 语种 中文
DOI 10.3778/j.issn.1673-9418.1508055
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡婕 湖北大学计算机与信息工程学院 18 101 7.0 9.0
2 刘梦赤 武汉大学计算机学院 14 59 5.0 6.0
3 易晨辉 武汉大学计算机学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (7)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
信息抽取
最近公共祖先(LCA)
基本语义块
有效语义块
关系映射
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导