基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
使用Python爬虫爬取Kaggle官网近8年来共302个竞赛的赛事63 264个Kernel的相关信息,获取包括竞赛主体、竞赛任务、数据挖掘工具、算法使用情况以及应用领域的详细数据,利用词云、桑葚图等图表进行可视化分析.通过分析发现:(1)目前数据挖掘领域使用最多的编程语言为Python,使用最多的机器学习工具包为Keras;(2)数据挖掘的最热的研究方向主要包括机器视觉、自然语言处理等;(3)现有数据挖掘热点领域主要有医疗健康、公共管理、零售、电商、金融、文化娱乐、测绘遥感、保险、自动驾驶等;(4)热点数据挖掘算法主要包括随机森林、神经网络、增强算法等.
推荐文章
基于数据挖掘技术的微博热点话题预测
数据挖掘
网络技术
微博话题
预测模型
基于数据仓库的数据挖掘研究
数据仓库
数据挖掘
知识发现
基于知识网格的数据挖掘研究
知识网格
数据挖掘
VEGA
知识发现
基于SQL Server构建数据挖掘应用
数据挖掘
知识发现
数据挖掘模型
分析服务
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 数据挖掘应用热点研究——基于Kaggle竞赛数据
来源期刊 图书馆学研究 学科
关键词 数据挖掘 机器视觉 自然语言处理 医疗健康
年,卷(期) 2019,(6) 所属期刊栏目 研究进展
研究方向 页码范围 2-9,23
页数 9页 分类号
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邓仲华 112 1395 18.0 34.0
2 刘斌 78 688 15.0 24.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (87)
共引文献  (25)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(6)
  • 参考文献(0)
  • 二级参考文献(6)
2014(9)
  • 参考文献(0)
  • 二级参考文献(9)
2015(16)
  • 参考文献(4)
  • 二级参考文献(12)
2016(28)
  • 参考文献(0)
  • 二级参考文献(28)
2017(15)
  • 参考文献(0)
  • 二级参考文献(15)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据挖掘
机器视觉
自然语言处理
医疗健康
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
图书馆学研究
半月刊
1001-0424
22-1052/G2
大16开
吉林省长春市新民大街1162号
12-205
1980
chi
出版文献量(篇)
7783
总下载数(次)
21
总被引数(次)
58723
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导