基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
实体识别是数据集成和数据清洗的一个重要方面.针对Pay-as-you-go数据管理需求,本文提出一个基于多路分块的Pay-as-you-go实体识别方法.该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域.分为两个阶段,初始化阶段和迭代阶段.在初始化阶段,初步地生成候选数据对象对,并按匹配可能性排序后加入到候选队列.在迭代阶段,每次选择候选队列队首的候选对(即最可能匹配的)来处理,并且根据实时的实体识别结果,动态地更新候选对的匹配可能性,调整候选队列.这样减少了无用的数据对象比较,使得实时的识别结果最优化.通过在真实数据集和合成数据集上的实验对比,说明本文提出的基于多路分块的Pay-as-you-go实体识别方法显著地优于已有工作中提出的方法.
推荐文章
Pay-as-you-go模式的教育云服务描述与发现
pay-as-you-go
数据空间
教育云服务
服务发现
异构数据
Pay-as-you-go模式的教育云服务描述与发现
pay-as-you-go
数据空间
教育云服务
服务发现
异构数据
基于语义图嵌入的实体与关系联合识别方法
实体识别
关系识别
联合学习
图神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多路分块的Pay-as-you-go实体识别方法
来源期刊 计算机学报 学科 工学
关键词 实体识别 Pay-as-you-go 多路分块 候选对选择 数据集成 数据清洗
年,卷(期) 2019,(8) 所属期刊栏目 大数据
研究方向 页码范围 1704-1720
页数 17页 分类号 TP391
字数 15917字 语种 中文
DOI 10.11897/SP.J.1016.2019.01704
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于戈 东北大学计算机科学与工程学院 426 6587 38.0 64.0
2 申德荣 东北大学计算机科学与工程学院 111 1289 18.0 32.0
3 寇月 东北大学计算机科学与工程学院 68 816 12.0 26.0
4 聂铁铮 东北大学计算机科学与工程学院 69 854 13.0 27.0
5 孙琛琛 东北大学计算机科学与工程学院 4 62 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (5)
参考文献  (15)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1948(1)
  • 参考文献(0)
  • 二级参考文献(1)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(5)
  • 参考文献(1)
  • 二级参考文献(4)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(7)
  • 参考文献(1)
  • 二级参考文献(6)
2013(6)
  • 参考文献(3)
  • 二级参考文献(3)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
实体识别
Pay-as-you-go
多路分块
候选对选择
数据集成
数据清洗
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
论文1v1指导