基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接.提出了一种基于链接分块的相关链接提取方法.首先,将网页按照HTML语言中《table》标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块.相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效.
推荐文章
基于链接文本相关度的超链接算法
超链接算法
Web信息检索
搜索引擎
基于KNN及相关链接的中文网页分类研究
中文网页分类
网页提取
相关链接
KNN
基于BERT和TextRank关键词提取的实体链接方法
实体链接
BERT预训练语言模型
语义分析
TextRank
关键词提取
网络信息采集中链接与主题相关性的判定研究
Web信息采集
语义分析
URL链接
主题相关性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于链接分块的相关链接提取方法
来源期刊 计算机工程与应用 学科 工学
关键词 网页分块 链接块 相关链接提取
年,卷(期) 2006,(31) 所属期刊栏目 网络、通信与安全
研究方向 页码范围 110-113
页数 4页 分类号 TP391
字数 4888字 语种 中文
DOI 10.3321/j.issn:1002-8331.2006.31.034
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王芳 哈尔滨工业大学计算机学院 63 657 14.0 24.0
2 谭红叶 哈尔滨工业大学计算机学院 3 15 2.0 3.0
3 赵铁军 哈尔滨工业大学计算机学院 123 1278 19.0 32.0
4 于浩 哈尔滨工业大学计算机学院 22 480 10.0 21.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (48)
参考文献  (2)
节点文献
引证文献  (9)
同被引文献  (5)
二级引证文献  (7)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(1)
  • 引证文献(1)
  • 二级引证文献(0)
2008(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(3)
  • 引证文献(1)
  • 二级引证文献(2)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2015(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网页分块
链接块
相关链接提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导