作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法.首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取.这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用.通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
基于信息增益的 Web 人物关系抽取
关系抽取
信息增益
模板匹配
多分类
自然语言处理
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于开始定界符的自动Web信息抽取
来源期刊 微型电脑应用 学科 工学
关键词 Web信息抽取 循环神经网络 开始定界符 lxml
年,卷(期) 2019,(11) 所属期刊栏目 开发应用
研究方向 页码范围 141-142,146
页数 3页 分类号 TP311
字数 2406字 语种 中文
DOI 10.3969/j.issn.1007-757X.2019.11.044
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 白钰洁 东北石油大学计算机与信息技术学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (2)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web信息抽取
循环神经网络
开始定界符
lxml
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微型电脑应用
月刊
1007-757X
31-1634/TP
16开
上海市华山路1954号上海交通大学铸锻楼314室
4-506
1984
chi
出版文献量(篇)
6963
总下载数(次)
20
总被引数(次)
28091
论文1v1指导