基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编辑相似度计算子字符串之间关联度,在此基础上引入二分图最大加权匹配算法度量记录之间的关联度。由于该方法的计算时间复杂度比较高,对于Web大数据集实体解析来说,所需的时间成本较大,因此,该文还提出了一种基于集合相似度的实体解析算法,将记录看作所有属性值的集合,每个属性值作为集合中的元素,用一个标记数组来表示每个元素,根据这些标记数组为每个记录创建一个签名,找出与签名相匹配的其他相似记录。并且采用优化后的最大匹配算法来选出真正相似的记录。最后,该文采用实际数据集进行实验验证了上述方法比传统方法更有效。
推荐文章
半结构化数据OEM图应用
对象交换模型(OEM)
TSL
查询重写
算法
半结构化数据
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
基于证券行业半结构化数据的抽取技术
数据抽取
半结构化
数据挖掘
证券投资
IndexPeer:半结构化P2P系统资源发现模型及其DHT算法
分布式哈希表
点对点系统
索引
资源发现
搜索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 半结构化实体解析算法
来源期刊 数据挖掘 学科 工学
关键词 实体解析 编辑相似度 集合相似度 二分图最大加权匹配
年,卷(期) 2020,(1) 所属期刊栏目
研究方向 页码范围 1-15
页数 15页 分类号 TP3
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曹科研 沈阳建筑大学信息与控制工程学院 9 28 2.0 5.0
2 李贵 沈阳建筑大学信息与控制工程学院 25 108 6.0 10.0
3 韩子扬 沈阳建筑大学信息与控制工程学院 29 104 5.0 10.0
4 李征宇 沈阳建筑大学信息与控制工程学院 37 102 5.0 9.0
5 韦海浪 沈阳建筑大学信息与控制工程学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
实体解析
编辑相似度
集合相似度
二分图最大加权匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据挖掘
季刊
2163-145X
武汉市江夏区汤逊湖北路38号光谷总部空间
出版文献量(篇)
140
总下载数(次)
1
总被引数(次)
0
论文1v1指导