基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息.为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法.鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类.实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度.
推荐文章
一种融合多种语义特征的中文问题分类方法
问题分类
疑问词
义原
命名实体
支持向量机
一种快速有效的Web文档聚类方法
Web挖掘
文档聚类
矢量空间模型VSM
关联规则
一种改进的KNN Web文本分类方法
Web文本分类
K最近邻
快速分类
中文WEB文档自动分类系统的设计与实现
网络蜘蛛
中文分词
文档频度
NaIve
贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种融合多种信息的Web文档分类方法
来源期刊 信息技术与网络安全 学科 工学
关键词 Web文档分类 信息融合 遗传算法 支持向量机
年,卷(期) 2018,(6) 所属期刊栏目 人工智能
研究方向 页码范围 76-79
页数 4页 分类号 TP391.4
字数 3055字 语种 中文
DOI 10.19358/j.issn.2096-5133.2018.06.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郭蕾蕾 陆军工程大学通信工程学院 5 7 2.0 2.0
2 段国仑 陆军工程大学指挥控制工程学院 5 7 2.0 2.0
3 王晓莹 陆军工程大学指挥控制工程学院 5 8 2.0 2.0
4 谢钧 陆军工程大学指挥控制工程学院 6 11 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (258)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web文档分类
信息融合
遗传算法
支持向量机
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息技术与网络安全
月刊
2096-5133
10-1543/TP
大16开
北京市海淀区清华东路25号(北京927信箱)
82-417
1982
chi
出版文献量(篇)
10909
总下载数(次)
33
总被引数(次)
35987
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导