基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于合适的数据抽取模型持续不断地将变化的数据从各个数据源系统进行抽取集成,是各个异构系统之间进行数据共享融合的关键,也是构建增量式数据仓库来进行数据分析的关键.传统的时间戳变化数据捕获方式存在因数据抽取过程中发生异常而导致数据抽取失效,进而影响数据抽取效率的问题.鉴于此,文中借鉴时间窗口的思想,采用先抽取少量重复记录再去重的做法,对传统的时间戳增量数据捕获模型进行了改进,提出了基于可变时间窗口的增量数据抽取模型.该模型减少了异常对数据抽取的影响,增强了时间戳增量数据抽取ETL流程的可靠性,在一定程度上提高了数据的抽取效率.
推荐文章
基于领域模型的Web数据抽取与集成
Web数据模型
Web数据模式
领域数据模型
数据抽取与集成
时间序列数据的相似模式抽取
时间序列
相似搜索
查询
知识发现
基于动态时间窗口的制丝稳态数据异常报警
卷烟企业
烟丝生产
动态时间窗口
异常报警
基于关键属性比对的增量数据抽取方法
关键属性
增量数据抽取
全表比对
提取转换加载(ETL)
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于可变时间窗口的增量数据抽取模型
来源期刊 计算机科学 学科 工学
关键词 变化数据的捕获 增量抽取 时间戳 ETL
年,卷(期) 2018,(11) 所属期刊栏目 软件与数据库技术
研究方向 页码范围 204-209,230
页数 7页 分类号 TP311
字数 6983字 语种 中文
DOI 10.11896/j.issn.1002-137X.2018.11.032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘杰 北方工业大学计算机学院 7 10 2.0 3.0
2 王桂玲 1 3 1.0 1.0
3 左小将 北方工业大学计算机学院 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (41)
共引文献  (50)
参考文献  (10)
节点文献
引证文献  (3)
同被引文献  (4)
二级引证文献  (0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(9)
  • 参考文献(2)
  • 二级参考文献(7)
2008(8)
  • 参考文献(0)
  • 二级参考文献(8)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(6)
  • 参考文献(2)
  • 二级参考文献(4)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
变化数据的捕获
增量抽取
时间戳
ETL
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
相关基金
北京市自然科学基金
英文译名:Natural Science Foundation of Beijing Province
官方网址:http://210.76.125.39/zrjjh/zrjj/
项目类型:重大项目
学科类型:
论文1v1指导