基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值.传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效.针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识.实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果.
推荐文章
一种快速有效的Web文档聚类方法
Web挖掘
文档聚类
矢量空间模型VSM
关联规则
基于Web的表格信息抽取研究
HTML表格
信息抽取
Web
XML
基于兴趣度的Web用户聚类方法
Web挖掘
Web聚类
兴趣度
访问模式
遗忘机制
基于蚁群聚类模型的增量式Web用户聚类
用户聚类
蚁群聚类
方向相似性
增量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于等价压缩快速聚类的Web表格知识抽取
来源期刊 中文信息学报 学科 工学
关键词 Web表格 知识抽取 表格聚类 等价压缩 快速聚类
年,卷(期) 2019,(4) 所属期刊栏目 信息抽取与文本挖掘
研究方向 页码范围 75-84
页数 10页 分类号 TP391
字数 8880字 语种 中文
DOI 10.3969/j.issn.1003-0077.2019.04.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曹存根 中国科学院计算技术研究所智能信息处理重点实验室 91 991 17.0 27.0
2 吴小龙 中国科学院计算技术研究所智能信息处理重点实验室 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (12)
参考文献  (9)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1977(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(6)
  • 参考文献(1)
  • 二级参考文献(5)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web表格
知识抽取
表格聚类
等价压缩
快速聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
论文1v1指导