基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法.该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构.方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构.实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好.
推荐文章
基于结构特征和元模型的中文表格语义分析方法
结构特征
元模型
一阶谓词函数
表面语义
上下文语义
限制语义
附加语义
关系语义
一种基于自举原理的语义模式自动获取方法
语义模式
自举法
信息抽取
模式获取
机器学习
HTML表格向XML的智能转换
HTML表格
结构分析
规范化
信息提取
可扩展标记语言
基于确定性退火的中文术语语义层次关联研究
术语语义层次
术语聚类
确定性退火
中文信息处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 自动获取HTML表格语义层次结构方法
来源期刊 清华大学学报(自然科学版) 学科 工学
关键词 行标题表格 列标题表格 行列标题表格 内容树
年,卷(期) 2007,(10) 所属期刊栏目 自动化
研究方向 页码范围 1586-1590
页数 5页 分类号 TP319
字数 5260字 语种 中文
DOI 10.3321/j.issn:1000-0054.2007.10.010
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (16)
同被引文献  (13)
二级引证文献  (37)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(2)
  • 引证文献(2)
  • 二级引证文献(0)
2010(8)
  • 引证文献(3)
  • 二级引证文献(5)
2011(4)
  • 引证文献(2)
  • 二级引证文献(2)
2012(5)
  • 引证文献(2)
  • 二级引证文献(3)
2013(10)
  • 引证文献(2)
  • 二级引证文献(8)
2014(3)
  • 引证文献(1)
  • 二级引证文献(2)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2016(8)
  • 引证文献(2)
  • 二级引证文献(6)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(6)
  • 引证文献(0)
  • 二级引证文献(6)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
行标题表格
列标题表格
行列标题表格
内容树
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
清华大学学报(自然科学版)
月刊
1000-0054
11-2223/N
大16开
北京市海淀区清华园清华大学
2-90
1915
chi
出版文献量(篇)
7846
总下载数(次)
26
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导