基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法.该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取.使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase.实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高.
推荐文章
基于模板和CSS技术的Web页面定制
定制
布局
Web应用
模板
层叠样式表
基于VIPS的职位信息抽取技术研究
网络招聘
信息抽取
视觉分割
VIPS
职位信息
基于汉英双语语料的语义精准抽取系统设计
语义抽取
系统设计
双语语料
制定抽取规则
精准抽取
性能测试
一种基于模板的快速网页文本自动抽取算法
噪声
非结构化
文本抽取
模板
阈值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于CSS模板的职位信息并行抽取系统设计
来源期刊 电子科技 学科 工学
关键词 信息抽取 MapReduce CSS模板 MD5算法 分布式数据库HBase
年,卷(期) 2016,(10) 所属期刊栏目 协议·算法及仿真
研究方向 页码范围 93-96
页数 4页 分类号 TP391
字数 3290字 语种 中文
DOI 10.16180/j.cnki.issn1007-7820.2016.10.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王丹 江苏大学计算机科学与通信工程学院 24 37 4.0 5.0
2 薛安荣 江苏大学计算机科学与通信工程学院 45 665 13.0 25.0
3 黄祖卫 江苏大学计算机科学与通信工程学院 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (28)
共引文献  (30)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (13)
二级引证文献  (0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(5)
  • 参考文献(5)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
信息抽取
MapReduce
CSS模板
MD5算法
分布式数据库HBase
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子科技
月刊
1007-7820
61-1291/TN
大16开
西安电子科技大学
1987
chi
出版文献量(篇)
9344
总下载数(次)
32
总被引数(次)
31437
论文1v1指导