基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值.
推荐文章
基于遗传算法的Web文档聚类算法
Web文档聚类
遗传算法
自适应对偶种群
目标策略
基于关联规则的文本聚类算法的研究
文本挖掘
K-均值聚类
关联规则
权重
基于关联规则的映射聚类算法
高维
映射聚类
关联规则
子空间
一种快速有效的Web文档聚类方法
Web挖掘
文档聚类
矢量空间模型VSM
关联规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于关联规则的Web文档聚类算法
来源期刊 软件学报 学科 工学
关键词 文档聚类 关联规则 Web挖掘 WWW
年,卷(期) 2002,(3) 所属期刊栏目
研究方向 页码范围 417-423
页数 7页 分类号 TP311
字数 4334字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 沈钧毅 西安交通大学计算机科学与技术系 211 4319 32.0 55.0
2 宋擒豹 西安交通大学计算机科学与技术系 41 1725 19.0 41.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (112)
同被引文献  (94)
二级引证文献  (685)
1997(2)
  • 参考文献(2)
  • 二级参考文献(0)
2002(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2003(10)
  • 引证文献(9)
  • 二级引证文献(1)
2004(18)
  • 引证文献(9)
  • 二级引证文献(9)
2005(33)
  • 引证文献(16)
  • 二级引证文献(17)
2006(52)
  • 引证文献(14)
  • 二级引证文献(38)
2007(48)
  • 引证文献(12)
  • 二级引证文献(36)
2008(56)
  • 引证文献(8)
  • 二级引证文献(48)
2009(56)
  • 引证文献(14)
  • 二级引证文献(42)
2010(68)
  • 引证文献(10)
  • 二级引证文献(58)
2011(55)
  • 引证文献(4)
  • 二级引证文献(51)
2012(43)
  • 引证文献(2)
  • 二级引证文献(41)
2013(48)
  • 引证文献(2)
  • 二级引证文献(46)
2014(37)
  • 引证文献(3)
  • 二级引证文献(34)
2015(38)
  • 引证文献(1)
  • 二级引证文献(37)
2016(66)
  • 引证文献(1)
  • 二级引证文献(65)
2017(56)
  • 引证文献(4)
  • 二级引证文献(52)
2018(58)
  • 引证文献(2)
  • 二级引证文献(56)
2019(44)
  • 引证文献(1)
  • 二级引证文献(43)
2020(9)
  • 引证文献(0)
  • 二级引证文献(9)
研究主题发展历程
节点文献
文档聚类
关联规则
Web挖掘
WWW
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导