基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文在DomTree匹配分析网页数据的基础上,提出了一种基于白名单策略的DomTree简化方法,这种简化方法根据白名单匹配原则对网页嵌套结构进行剪枝和压缩,其生成的网页文本树结构只包含与检索相关的内容区块。本文提出了一种基于简化DomTree结构进行网页数据提取的方法。这种方法可以在保证网页主要数据信息不丢失的基础上,提高网页数据分析及获取的速度,缩短网页数据分析的时间。本文利用电子商务网页文本对分析方法进行评估,实验表明提取得到的数据信息完整,主题相关程度高,取得了较好的结果。
推荐文章
面向不规则列表的网页数据抽取技术的研究
列表页
网页数据抽取
标签树匹配
部分树对齐
网页数据自动抽取系统
信息提取
包装器产生
DOM树
病案首页数据质控的实践
疾病诊断相关组
病案首页
质量控制
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于简化DomTree的网页数据提取
来源期刊 中国电子商情:通信市场 学科 工学
关键词 内容挖掘 网页数据提取 简化Dom Tree
年,卷(期) 2012,(5) 所属期刊栏目 2012云计算与信息技术应用学术会议优秀论文
研究方向 页码范围 31-36
页数 6页 分类号 TP391
字数 2950字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王鹏 北京航空航天大学计算机学院 55 761 12.0 27.0
2 史辰方 北京航空航天大学计算机学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
内容挖掘
网页数据提取
简化Dom
Tree
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国电子商情·通信市场
双月刊
chi
出版文献量(篇)
2764
总下载数(次)
1
论文1v1指导