作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出了一种新的通用表格提取工具,该工具结合了数据挖掘技术和机器学习方法,能够有效且高效地从表格中识别和提取数据.首先使用卷积神经网络来识别和分离出所有潜在的表,通过与物体检测网络相结合,进一步优化了识别过程.然后,用计算机视觉方法识别每个表的高层结构,另一个卷积神经网络使用这种高层次的结构化元数据来识别准确的单元位置.最后,在每个单独的单元上执行光学字符识别,以提取它们的内容.这种多阶段算法允许神经网络专注于完成复杂的任务,同时让图像处理方法高效地完成更简单的任务.这使得所提出的方法足够通用,可以处理大量的表,而不管它们的内部编码或布局的复杂性.此外,它在ICDA R 2013表数据集上取得了0.9156的F1分数.
推荐文章
基于深度学习的不完整大数据填充算法
深度学习
缺失数据填充
自动编码机
大数据
基于数据融合和数据挖掘的网络故障管理系统
数据融合
数据挖掘
网络故障管理
自动计算分解和数据划分算法研究
并行编译
数据分布
计算划分
基于深度学习的电力调度数据自动备份系统设计
电力调度数据
自动备份系统
系统设计
深度学习
辨识模型建立
数据处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于深度学习和数据挖掘的自动表格提取算法
来源期刊 长春工程学院学报(自然科学版) 学科 工学
关键词 表格提取 数据挖掘 机器学习 光学字符识别
年,卷(期) 2021,(4) 所属期刊栏目 信息技术
研究方向 页码范围 100-106
页数 7页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1009-8984.2021.04.020
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
表格提取
数据挖掘
机器学习
光学字符识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
长春工程学院学报(自然科学版)
季刊
1009-8984
22-1323/N
大16开
长春市红旗街2494号
2000
chi
出版文献量(篇)
2446
总下载数(次)
14
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导