基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网正在日益成为科研、教育、商业和社会信息等行业的巨大信息源,从中提取并解析出用户需要的数据成为巨大的挑战.该文介绍了网页内容提取的方法和和应用,以具体的例子来说明网页内容的提取的步骤与关键技术,并对其存在的问题和今后发展的前景做了论述.
推荐文章
Web数据提取与发布工具的设计与实现
数据提取
数据发布
数据字典
Web
基于Netfilter的实时网页内容过滤器的设计与实现
实时内容过滤
网络包过滤
gizp压缩
HTML页面文件
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网页内容提取工具的设计与实现
来源期刊 电脑知识与技术 学科 工学
关键词 网页内容提取 数据解析 网络爬虫
年,卷(期) 2011,(32) 所属期刊栏目 网络通讯及安全
研究方向 页码范围 7878-7879,7881
页数 分类号 TP393.09
字数 2550字 语种 中文
DOI 10.3969/j.issn.1009-3044.2011.32.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴中博 5 6 1.0 2.0
2 王悠悠 2 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (8)
共引文献  (6)
参考文献  (1)
节点文献
引证文献  (4)
同被引文献  (11)
二级引证文献  (1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网页内容提取
数据解析
网络爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑知识与技术
旬刊
1009-3044
34-1205/TP
大16开
安徽省合肥市
26-188
1994
chi
出版文献量(篇)
58241
总下载数(次)
228
总被引数(次)
132128
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导