原文服务方: 科技与创新       
摘要:
针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率.实验结果表明,该方法在保证较高查全率与查准率的同时,比传统相似重复数据清洗算法更具有扩展性,这对大数据的处理有较强的实用意义.
推荐文章
相似重复数据检测的数据清洗算法优化
脏数据
相似重复
数据清洗
SNM算法
基于阈值自适应调整的重复数据删除方案
重复数据删除
阈值自适应调整
动态计数
属性相似度
基于文件相似性分簇的重复数据消除模型
云存储
重复数据消除
吞吐量
文件相似性分簇
负载均衡
基于文件相似性分簇的重复数据消除模型
云存储
重复数据消除
吞吐量
文件相似性分簇
负载均衡
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Mahout的相似重复数据清洗策略研究
来源期刊 科技与创新 学科
关键词 数据清洗 k-means 相似重复记录 文本聚类
年,卷(期) 2020,(20) 所属期刊栏目 理论探索
研究方向 页码范围 15-18
页数 4页 分类号 TP311.13
字数 语种 中文
DOI 10.15913/j.cnki.kjycx.2020.20.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王佳斌 33 132 5.0 10.0
2 李碧秋 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (198)
参考文献  (2)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据清洗
k-means
相似重复记录
文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
论文1v1指导