基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%.
推荐文章
面向大规模信息的用户分类方法研究
用户分类
支持向量机
隐私保护
大规模信息
基于快速SVM的大规模网络流量分类方法
支持向量机
大规模流量分类
比特压缩
权重SVM
分类器
分类准确率
基于大规模中文搜索引擎的搜索日志挖掘
搜索引擎
数据挖掘
搜索日志
分词
基于层级类别信息的标题自动分类研究
标题分类
特征选择
层级结构分类体系
同现分析
向量空间
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大规模层次分类中的候选类别搜索
来源期刊 计算机学报 学科 工学
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
年,卷(期) 2014,(1) 所属期刊栏目 网络安全行为分析
研究方向 页码范围 41-49
页数 9页 分类号 TP391
字数 7863字 语种 中文
DOI 10.3724/SP.J.1016.2014.00041
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 贾焰 国防科学技术大学计算机学院 117 2188 23.0 43.0
2 韩伟红 国防科学技术大学计算机学院 28 287 7.0 16.0
3 何力 国防科学技术大学计算机学院 5 69 4.0 5.0
4 丁兆云 国防科学技术大学信息系统与管理学院 8 341 7.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (15)
参考文献  (4)
节点文献
引证文献  (21)
同被引文献  (69)
二级引证文献  (31)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(11)
  • 引证文献(10)
  • 二级引证文献(1)
2018(10)
  • 引证文献(2)
  • 二级引证文献(8)
2019(17)
  • 引证文献(2)
  • 二级引证文献(15)
2020(9)
  • 引证文献(2)
  • 二级引证文献(7)
研究主题发展历程
节点文献
文本分类
大规模层次分类
类别层次
候选类别
候选搜索问题
社交网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导