基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithm for web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.
推荐文章
基于Co-Training的协同目标跟踪
目标跟踪
联合训练
半监督学习
特征融合
Co-Training——内容和链接的Web Spam检测方法
Web spam检测方法
内容作弊
链接作弊
Co-Training算法
一种网页分类中基于图的半指导学习算法
图模型
半指导学习
网页分类
链接信息
基于Co-training的图像自动标注
图像自动标注
Co-training算法
统一框架
相关模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于图的Co-Training网页分类
来源期刊 电子学报 学科 工学
关键词 半监督 Co-training 归纳式 网页分类
年,卷(期) 2009,(10) 所属期刊栏目 学术论文
研究方向 页码范围 2173-2180,2219
页数 9页 分类号 TP18
字数 8370字 语种 中文
DOI 10.3321/j.issn:0372-2112.2009.10.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 焦李成 西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室 514 14586 52.0 103.0
2 侯翠琴 西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室 3 51 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (16)
同被引文献  (50)
二级引证文献  (47)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2011(4)
  • 引证文献(4)
  • 二级引证文献(0)
2012(2)
  • 引证文献(1)
  • 二级引证文献(1)
2013(9)
  • 引证文献(3)
  • 二级引证文献(6)
2014(11)
  • 引证文献(3)
  • 二级引证文献(8)
2015(8)
  • 引证文献(1)
  • 二级引证文献(7)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(8)
  • 引证文献(0)
  • 二级引证文献(8)
2018(8)
  • 引证文献(1)
  • 二级引证文献(7)
2019(7)
  • 引证文献(1)
  • 二级引证文献(6)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
半监督
Co-training
归纳式
网页分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导