作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题.提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题.首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类.实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优.
推荐文章
基于链接信息的网页分类算法
网页分类
类别
K近邻方法
链接信息分类
基于分块的新闻网页信息抽取算法
网页信息抽取
模板页
分块
相同噪音块
同类噪音块
特殊噪音块
融合LSI和支持向量聚类的网页文本分类算法
特征提取
潜在语义索引
网页文本
语义聚类
支持向量聚类
一种自动分类的网页搜索排序算法
领域向量
BM25
softmax回归分类
网页排序
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域向量模型的新闻网页分类算法
来源期刊 软件导刊 学科 工学
关键词 领域模型 网页信息模型 网页分类
年,卷(期) 2015,(7) 所属期刊栏目 算法与语言
研究方向 页码范围 57-60
页数 4页 分类号 TP312
字数 5413字 语种 中文
DOI 10.11907/rjdk.151342
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 潘澄 合肥工业大学计算机与信息学院 2 7 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (48)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (10)
二级引证文献  (0)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
领域模型
网页信息模型
网页分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
总被引数(次)
30383
论文1v1指导