基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据分块有助于降低大规模数据中实体分辨的计算复杂度,但现有算法存在效能和效率难以平衡的问题.为此,在标签传播的基础上设计数据分块算法,以实现两者的平衡.根据记录间相同词项的数量估计记录相似度,通过标签传播算法发现潜在相似重复记录,降低时间复杂度.在通用测试数据中的实验结果表明,该算法能有效提高F-Measure值,减少运行时间,实现大规模数据中的数据分块.
推荐文章
基于加权聚类集成的标签传播算法
数据挖掘
网络数据
社区发现
标签传播算法
聚类集成
基聚类
模块度
加权度量
基于深度游走模型的标签传播社区发现算法
深度游走模型
随机序列
特征向量
SkipGram模型
节点相似度
传播迭代
一种基于受限约束范围标签传播的半监督学习算法
概率转移矩阵
受限约束范围
标签传播
半监督学习算法
一种基于局部回路的标签传播改进算法
局部回路
标签传播
社区发现
划分
复杂网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于标签传播的数据分块算法
来源期刊 计算机工程 学科 工学
关键词 数据质量 数据清洗 实体分辨 相似重复记录 数据分块 标签传播算法
年,卷(期) 2017,(9) 所属期刊栏目 先进计算与数据处理
研究方向 页码范围 51-55,61
页数 6页 分类号 TP311
字数 4947字 语种 中文
DOI 10.3969/j.issn.1000-3428.2017.09.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 游宏梁 8 41 3.0 6.0
2 冉德彤 3 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (5)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1946(1)
  • 参考文献(0)
  • 二级参考文献(1)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据质量
数据清洗
实体分辨
相似重复记录
数据分块
标签传播算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导