基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度.在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能.文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性.
推荐文章
基于HTML标签的信息隐藏模型
超文本标记语言
信息隐藏
数字水印
模型
标签
文本
利用本体集成和特征聚类的网页分类研究
文本分类
本体集成
支持向量机
维数约简
聚类
利用扩展锚点文本来分类网页
网页分类
网页结构
锚点文本
扩展锚点文本
基于HTML5技术的网页广告动态交互系统设计
网页广告
动态交互系统
HTML5技术
系统设计
网页搜索
数据库链接
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 利用HTML标签筛选网页分类样本
来源期刊 微机发展 学科 工学
关键词 超文本标识语言 文档对象模型 标签 网页分类
年,卷(期) 2005,(3) 所属期刊栏目 网络与通信
研究方向 页码范围 142-144
页数 3页 分类号 TP393
字数 2611字 语种 中文
DOI 10.3969/j.issn.1673-629X.2005.03.046
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王黎明 郑州大学信息工程学院 81 602 14.0 20.0
2 侯小静 郑州大学信息工程学院 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (2)
参考文献  (1)
节点文献
引证文献  (10)
同被引文献  (9)
二级引证文献  (5)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(2)
  • 引证文献(2)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
超文本标识语言
文档对象模型
标签
网页分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导