原文服务方: 科技与创新       
摘要:
为适应主题的动态性和完整性,本文提出了一种基于网络日志分析的混合策略主题爬虫.首先,它通过对网络日志的分析,一方面发现种子页面,有效扩充主题群落;另一方面挖掘用户兴趣,进一步精确描述主题.然后,爬虫从新种子集出发,结合用户兴趣,采用混合策略,对页面进行筛选.实验证明,该爬虫能够有效地采集更多的主题页面.
推荐文章
基于PATRICIA算法的动态网络日志分析
网络管理
网络管理系统
PATRICIA算法
一种网络日志属性挖掘与分析方法
网络日志
日志属性
活跃期
地域属性
LDA模型
基于网络日志挖掘技术数据信息分析的研究
日志挖掘
数据分析
信息检索
网络日志
基于Hadoop的网络日志挖掘方案的设计
网络日志
数据挖掘
数据清洗
Hadoop
MySQL
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于网络日志分析的混合策略主题爬虫
来源期刊 科技与创新 学科
关键词 主题爬虫 网络日志 主题群落 用户兴趣 混合策略
年,卷(期) 2009,(3) 所属期刊栏目 软件时空
研究方向 页码范围 200-202
页数 3页 分类号 TP393
字数 语种 中文
DOI 10.3969/j.issn.1008-0570.2009.03.082
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李廉 兰州大学信息科学与工程学院 69 731 11.0 26.0
2 陈晓云 兰州大学信息科学与工程学院 33 219 8.0 13.0
3 莫明辉 兰州大学信息科学与工程学院 2 9 1.0 2.0
4 赵燕 兰州大学信息科学与工程学院 5 9 1.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (4)
参考文献  (1)
节点文献
引证文献  (1)
同被引文献  (6)
二级引证文献  (0)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
主题爬虫
网络日志
主题群落
用户兴趣
混合策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
科技与创新
半月刊
2095-6835
14-1369/N
大16开
2014-01-01
chi
出版文献量(篇)
41653
总下载数(次)
0
总被引数(次)
202805
论文1v1指导