基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地. 无论对企业还是个人,Web逐渐成为最主要的信息来源. 然而由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难. 搜索引擎只能提供信息的查找范围,而具体的内容还要靠详细搜查. 而且网页信息都是非结构化或半结构化的,无法直接利用分析工具进行分析. 所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法,来简化信息获取的过程和方便信息分析处理.
推荐文章
基于NOR Flash的智能电能表数据管理方法
智能电能表
数据管理
NOR Flash
基于虚拟仪器技术的数据管理方法研究
虚拟仪器
数据管理
数据库管理系统
基于Web Service的数据抽取研究与设计
Web Service数据抽取
抽取线程
数据库
基于Web Services数据抽取的研究与实践
Web Services
并行数据抽取
增量数据
服务安全
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web内容抽取及其数据管理方法
来源期刊 复旦学报(自然科学版) 学科 社会科学
关键词 数据抽取 网页包装 规则表达式 半(非)结构化 模式匹配
年,卷(期) 2001,(2) 所属期刊栏目
研究方向 页码范围 177-183
页数 7页 分类号 C903.1
字数 4972字 语种 中文
DOI 10.3969/j.issn.0427-7104.2001.02.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张成洪 复旦大学管理学院 36 666 14.0 25.0
2 张诚 复旦大学管理学院 26 214 7.0 14.0
3 肖军建 复旦大学管理学院 2 72 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (59)
同被引文献  (23)
二级引证文献  (192)
2001(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2002(3)
  • 引证文献(3)
  • 二级引证文献(0)
2003(3)
  • 引证文献(3)
  • 二级引证文献(0)
2004(4)
  • 引证文献(4)
  • 二级引证文献(0)
2005(14)
  • 引证文献(7)
  • 二级引证文献(7)
2006(23)
  • 引证文献(8)
  • 二级引证文献(15)
2007(16)
  • 引证文献(7)
  • 二级引证文献(9)
2008(22)
  • 引证文献(2)
  • 二级引证文献(20)
2009(27)
  • 引证文献(5)
  • 二级引证文献(22)
2010(29)
  • 引证文献(4)
  • 二级引证文献(25)
2011(20)
  • 引证文献(5)
  • 二级引证文献(15)
2012(35)
  • 引证文献(6)
  • 二级引证文献(29)
2013(15)
  • 引证文献(1)
  • 二级引证文献(14)
2014(14)
  • 引证文献(2)
  • 二级引证文献(12)
2015(8)
  • 引证文献(0)
  • 二级引证文献(8)
2016(5)
  • 引证文献(1)
  • 二级引证文献(4)
2017(6)
  • 引证文献(1)
  • 二级引证文献(5)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
数据抽取
网页包装
规则表达式
半(非)结构化
模式匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
复旦学报(自然科学版)
双月刊
0427-7104
31-1330/N
16开
上海市邯郸路220号
4-193
1955
chi
出版文献量(篇)
2978
总下载数(次)
5
论文1v1指导