基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
基于贝叶斯分类器的主题爬虫研究
贝叶斯
分类器
主题爬虫
主题相关度
基于语义分布相似度的主题模型
潜在狄利克雷分布
语义分布相似度
主题模型
GPU模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于语义相关度主题爬虫的语料采集方法
来源期刊 计算机系统应用 学科
关键词 生语料采集 语义相关度主题爬虫 页面信息相关度 URL结构信息
年,卷(期) 2019,(5) 所属期刊栏目 研究开发
研究方向 页码范围 190-195
页数 6页 分类号
字数 5651字 语种 中文
DOI 10.15888/j.cnki.csa.006922
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于碧辉 17 72 4.0 8.0
5 周昆 1 2 1.0 1.0
9 王钊 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (9)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (12)
二级引证文献  (0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
生语料采集
语义相关度主题爬虫
页面信息相关度
URL结构信息
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
农业经济问题 农村经济 农业技术经济 农村经济与科技 中国农业科技导报 甘肃农业 国土与自然资源研究 中国土地 河南农业 山东国土资源 农产品质量与安全 中国乳业 饲料广角 国土资源情报 国土资源 现代食品 农村经营管理 农村工作通讯 中国热带农业 国土资源导刊 江苏农村经济 国土资源信息化 南方国土资源 台湾农业探索 当代农村财经 浙江国土资源 上海农村经济 农业发展与金融 中国粮食经济 茶叶通讯 广东蚕业 资源导刊 山西林业 农业科研经济管理 自然资源通讯 农产品市场周刊 中国农垦 北方牧业 广西林业 广东茶业 计算机工程与应用 计算机工程 计算机应用研究 软件学报 计算机应用 计算机学报 系统仿真学报 计算机研究与发展 计算机工程与设计 计算机科学 控制与决策 电脑知识与技术 计算机集成制造系统 计算机仿真 自动化学报 计算机技术与发展 计算机应用与软件 计算机辅助设计与图形学学报 小型微型计算机系统 控制理论与应用 控制理论与应用 遥感学报 传感器与微系统 传感技术学报 制造业自动化 微电子学与计算机 计算机工程与科学 机器人 计算机系统应用 计算机与现代化 测控技术 计算机与数字工程 工业控制计算机 测绘与空间地理信息 电机与控制学报 中文信息学报 福建电脑 控制工程 遥感技术与应用 信息与控制
论文1v1指导