基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取?转换?加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法.首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL 86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求.
推荐文章
非结构化数据的ETL设计
非结构化数据
结构化数据
CWM
ETL
基于词语语义和隐喻逻辑的顾客非结构化需求分析
非结构化需求
语义相似度
心理隐喻
新产品开发
非结构化数据的ETL设计
非结构化数据
结构化数据
CWM
ETL
产品结构化信息树版本管理方法的研究与实现
产品结构化信息树
版本管理
版本控制锁
有向无环图版本模型
线性版本模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于语义树的非结构化年鉴Excel表格的ETL方法
来源期刊 计算机应用 学科 工学
关键词 Excel表格 抽取—转换—加载 语义树 正则表达式 数据仓库
年,卷(期) 2021,(z2) 所属期刊栏目 数据科学与技术|Data science and technology
研究方向 页码范围 131-135
页数 5页 分类号 TP391.13
字数 语种 中文
DOI 10.11772/j.issn.1001-9081.2021020233
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Excel表格
抽取—转换—加载
语义树
正则表达式
数据仓库
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导