基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对来源于多个业务系统的重复主数据影响主数据质量、主数据同步及主数据挖掘等问题,提出重复主数据检测算法fastCdrDetection。从数据可信度的角度出发,在考虑数据源可信度、数据最后更新时间及数据长度的基础上,建立主数据可信度模型,并实现可信记录生成算法。设计非递归的字符串相似度计算算法 FiledMatch,解决了由中文简写、缩写、错误拼写造成的主数据重复问题,采用 sourceKeys 算法对来源于同一业务系统、具有同样业务主键的重复记录进行预处理,从而提高重复主数据检测效率。通过对某电网基建物资63万余条供应商存量数据及23万余条模拟数据进行实验,结果表明,与 PQS 算法相比, fastCdrDetection算法的召回率由74%提高到88%,准确率由61%提高到95%,证明了算法的有效性。
推荐文章
基于认证可信度的角色访问控制模型
认证可信度
角色访问控制模型
授权
基于可信度的簇间多跳LEACH算法
无线传感器网络
低功耗自适应集簇分层型协议
可信度
多跳
生存时间
基于可信度的加权协作频谱检测算法
认知无线电
协作频谱感知
最大最小特征值检测
可信度
带可信度评估的连续小波分布式拒绝服务攻击检测算法
分布式拒绝服务
平台突发信号
连续小波变换
可信度评估
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于可信度模型的重复主数据检测算法
来源期刊 计算机工程 学科 工学
关键词 多数据源 重复主数据 可信度模型 检测算法 数据可信度
年,卷(期) 2014,(5) 所属期刊栏目 先进计算与数据处理
研究方向 页码范围 31-35,40
页数 6页 分类号 TP311
字数 4708字 语种 中文
DOI 10.3969/j.issn.1000-3428.2014.05.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王继奎 中国科学院成都计算机应用研究所 13 35 4.0 5.0
4 李少波 中国科学院成都计算机应用研究所 163 758 13.0 21.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (97)
参考文献  (7)
节点文献
引证文献  (5)
同被引文献  (16)
二级引证文献  (6)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(4)
  • 参考文献(2)
  • 二级参考文献(2)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(4)
  • 引证文献(4)
  • 二级引证文献(0)
2016(3)
  • 引证文献(1)
  • 二级引证文献(2)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
多数据源
重复主数据
可信度模型
检测算法
数据可信度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导