原文服务方: 西安工程大学学报       
摘要:
传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进。首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集。实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36min,均优于对比方法。
推荐文章
基于主题网络爬虫思想的Web数据挖掘算法探讨
主题网络爬虫
数据挖掘
算法
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
网络舆情监控系统中主题网络爬虫的研究与实现
网络舆情监控系统
主题网络爬虫
信息采集
电力网络中SDN技术的应用关键问题分析
SDN技术
电力网络
网络架构
基础设施
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 应用主题爬虫的电力网络舆情数据采集
来源期刊 学科 工学
关键词 网络爬虫 电力网络 网络舆情 主题向量 数据采集 主题索引
年,卷(期) 2022,(2) 所属期刊栏目 电子信息与机电工程
研究方向 页码范围 72-78
页数 6页 分类号 TN957
字数 语种 中文
DOI 10.13338/ji.ssn.1674-649x.2022.02.010
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网络爬虫
电力网络
网络舆情
主题向量
数据采集
主题索引
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安工程大学学报
双月刊
1674-649X
61-1471/N
大16开
1986-01-01
chi
出版文献量(篇)
3377
总下载数(次)
0
总被引数(次)
15983
论文1v1指导