基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.
推荐文章
一种基于节点局部相似度的标签传播算法
重叠社区发现
标签传播
完全子图
节点局部相似度
一种垂直页面分割与信息提取方法的研究
页面分割
信息获取
垂直网站
内容聚集度
分割标签
前缀匹配
一种基于多Agent的Web数据挖掘方法
Web数据挖掘
多Agent
Web数据
网络通信量
并行挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于节点密度分割和标签传播的Web页面挖掘方法
来源期刊 计算机学报 学科 工学
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
年,卷(期) 2015,(2) 所属期刊栏目 社交网络
研究方向 页码范围 349-364
页数 16页 分类号 TP391
字数 16655字 语种 中文
DOI 10.3724/SP.J.1016.2015.00349
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李石君 武汉大学计算机学院 88 753 16.0 22.0
2 张乃洲 河南财经政法大学计算机与信息工程学院 3 23 2.0 3.0
3 曹薇 河南财经政法大学计算机与信息工程学院 4 26 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (4)
参考文献  (5)
节点文献
引证文献  (17)
同被引文献  (67)
二级引证文献  (49)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(2)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(13)
  • 引证文献(5)
  • 二级引证文献(8)
2018(19)
  • 引证文献(5)
  • 二级引证文献(14)
2019(23)
  • 引证文献(1)
  • 二级引证文献(22)
2020(6)
  • 引证文献(1)
  • 二级引证文献(5)
研究主题发展历程
节点文献
页面分割
节点密度
标签传播
DOM树
块分类
社会计算
社交网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导