原文服务方: 计算机应用研究       
摘要:
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
推荐文章
网页数据自动抽取系统
信息提取
包装器产生
DOM树
一种基于混沌粒子群算法的网页分类规则抽取方法
网页分类
规则抽取
混沌粒子群
面向Deep Web数据自动抽取的模板生成方法
Deep,Web
数据抽取
模板生成
文法推断
基于文本块密度和标签路径覆盖率的网页正文抽取
正文抽取
文本块密度
标签路径覆盖率
特征融合
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向不规则列表的网页数据抽取技术的研究
来源期刊 计算机应用研究 学科
关键词 列表页 网页数据抽取 标签树匹配 部分树对齐
年,卷(期) 2015,(9) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2651-2654,2658
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2015.09.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钱钢 南京财经大学信息工程学院 6 13 1.0 3.0
2 常丽君 南京财经大学信息工程学院 3 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (4)
参考文献  (8)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
列表页
网页数据抽取
标签树匹配
部分树对齐
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导