基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据库驱动的W eb站点根据查询产生的Web页结构布局都是极其相似的; 现有的W eb提取方法 忽视或者忽略了这种相似性, 因而在提取效率性能和通用性上都有较大的限制.本文提出一种基于标签 树相似度的模板自动学习方法; 进而根据模板来提取这类网页的数据; 并利用Ec lipse和开源HTML Parser 对算法进行了实现; 实验结果表明该算法具有较快的提取速度和较好的准确率.
推荐文章
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
非结构化信息管理
非结构化信息
关系数据库
多媒体数据库
非结构化数据库
内容管理Autonomy XML
涡轮叶片结构化网格自动分区策略研究
涡轮冷却叶片
自动分区
结构化网格生成
计算流体力学
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 自动提取布局结构相似网页的结构化信息
来源期刊 安徽科技学院学报 学科 工学
关键词 深层W eb 标签树- 相似度模型 结构化信息提取
年,卷(期) 2010,(6) 所属期刊栏目
研究方向 页码范围 37-42
页数 分类号 TP393
字数 语种 中文
DOI 10.3969/j.issn.1673-8772.2010.06.009
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (50)
参考文献  (6)
节点文献
引证文献  (1)
同被引文献  (1)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(5)
  • 参考文献(3)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深层W eb
标签树- 相似度模型
结构化信息提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
安徽科技学院学报
双月刊
1673-8772
34-1300/N
16开
安徽省凤阳县东华路9号
1984
chi
出版文献量(篇)
3123
总下载数(次)
7
总被引数(次)
12045
论文1v1指导