基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
互联网网页数量爆炸性地增长, 使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点, 提出一种基于层次特征词权重的文档特征表示方法, 以此为基础, 在网页文档分类时, 通过对网页结构和文本链接分析, 设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明, 对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.
推荐文章
基于链接信息的网页分类算法
网页分类
类别
K近邻方法
链接信息分类
基于结构和链接扩展的中文网页分类研究
分类
链接扩展
HTML标签
网络结构
基于链接的Web网页分类
链接挖掘
基于链接的分类
逻辑回归模型
无链接文档排序算法研究
信息检索
PageRank算法
DocumentRank算法
链接结构
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于结构和链接分析的网页文档分类算法研究
来源期刊 中北大学学报(自然科学版) 学科 工学
关键词 Web挖掘 文本分类 链接分析
年,卷(期) 2017,(3) 所属期刊栏目 自动化与计算机
研究方向 页码范围 354-359
页数 6页 分类号 TP391
字数 3894字 语种 中文
DOI 10.3969/j.issn.1673-3193.2017.03.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周毅灵 北京服装学院计算机信息中心 28 43 3.0 6.0
2 杜剑侠 北京服装学院计算机信息中心 15 28 3.0 5.0
3 耿增民 北京服装学院数字与交互媒体北京市重点实验室 15 30 3.0 5.0
7 陈迪 北京服装学院计算机信息中心 3 1 1.0 1.0
8 邵熙雯 北京服装学院计算机信息中心 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (34)
共引文献  (254)
参考文献  (13)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(4)
  • 参考文献(2)
  • 二级参考文献(2)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(5)
  • 参考文献(5)
  • 二级参考文献(0)
2015(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Web挖掘
文本分类
链接分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中北大学学报(自然科学版)
双月刊
1673-3193
14-1332/TH
大16开
太原13号信箱
1979
chi
出版文献量(篇)
2903
总下载数(次)
7
总被引数(次)
15437
论文1v1指导