基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
采用计算向量之间相似度的方法,通过实验分析验证了表格信息在主题爬行中的重要性.研究结果表明,与整个网页相比,表格所能提供的与用户相关的信息占整个网页信息总量的80%以上,因而在主题爬行领域可以充分利用这一结论进行网页解析.在舍弃除表格和标题之外的其他元素后,提高了爬行程序的效率.
推荐文章
基于信息增益的自适应主题爬行策略
主题爬行
维基百科
主题描述
自适应方法
信息增益
一种新的面向主题的爬行算法
爬行器
主题
面向主题
面向主题网络爬行的智能隧道穿越算法研究
主题网络爬虫
爬行策略
隧道
在线学习
马尔可夫
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 表格信息在主题爬行中的作用
来源期刊 吉林大学学报(理学版) 学科 工学
关键词 主题爬行 链接 TF-IDF 相似度
年,卷(期) 2007,(3) 所属期刊栏目 计算机科学
研究方向 页码范围 432-434
页数 3页 分类号 TP31
字数 2042字 语种 中文
DOI 10.3321/j.issn:1671-5489.2007.03.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王辉 吉林大学计算机科学与技术学院 205 987 17.0 22.0
2 左万利 吉林大学计算机科学与技术学院 88 1273 20.0 31.0
3 黄凤云 吉林大学计算机科学与技术学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
主题爬行
链接
TF-IDF
相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
吉林大学学报(理学版)
双月刊
1671-5489
22-1340/O
大16开
长春市南湖大路5372号
12-19
1955
chi
出版文献量(篇)
4812
总下载数(次)
6
总被引数(次)
24333
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导