基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文中设计并实现了一种基于Hadoop的网络舆情监控系统。该系统以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对舆情信息进行统一存储管理。首先利用基于MapReduce的分布式网络爬虫进行数据抓取,以解决单机爬虫效率低、可扩展性差等问题;其次采用Canopy结合K-means的二次聚类算法,克服单一K-means聚类算法的不足,以提高文本聚类的效率和准确度;最后实现基于查询的话题追踪策略,对热点话题进行有效跟踪分析。仿真实验表明:Canopy-Kmeans聚类方法比传统K-means方法漏报率、误报率分别降低1.24%、0.09%,最小标准代价降低1.681%。系统通过提供可视化舆情分析报告,为企业或单位及时掌握舆情热点、制定舆情策略提供科学、系统的技术支持。
推荐文章
基于Hadoop社交网络分析平台的设计与实现
数据挖掘
分布式计算
Hadoop社交网络
大数据
基于Hadoop的大数据信息安全监控云平台设计与研究
Hadoop
云平台
大数据
信息安全
数据溯源
基于Hadoop的农产品安全监控平台的设计
农产品
安全监控
Map/Reduce
Hadoop
基于大数据的网络舆情监测系统的设计与实现
网络舆情
大数据
数据采集
数据分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop的网络舆情监控平台设计与实现
来源期刊 计算机技术与发展 学科 工学
关键词 Hadoop MapReduce 舆情监控 文本聚类 热点发现 话题跟踪
年,卷(期) 2016,(2) 所属期刊栏目 应用开发研究
研究方向 页码范围 144-149
页数 6页 分类号 TP311.1
字数 5767字 语种 中文
DOI 10.3969/j.issn.1673-629X.2016.02.033
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于俊凤 山东省科学院情报研究所 25 70 4.0 7.0
2 朱世伟 山东省科学院情报研究所 26 148 7.0 11.0
3 杨子江 山东省科学院情报研究所 3 29 2.0 3.0
4 李晨 山东省科学院情报研究所 4 35 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (53)
参考文献  (11)
节点文献
引证文献  (9)
同被引文献  (20)
二级引证文献  (6)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(3)
  • 二级参考文献(1)
2010(6)
  • 参考文献(1)
  • 二级参考文献(5)
2011(5)
  • 参考文献(3)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(1)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(8)
  • 引证文献(4)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Hadoop
MapReduce
舆情监控
文本聚类
热点发现
话题跟踪
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导