基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。
推荐文章
基于内容图像检索的聚类算法研究
基于内容的图像检索
特征提取
相似性度量
聚类
基于改进频繁模式聚类算法的网站结构优化
数据挖掘
频繁序列模式
压缩
Web设计
基于颜色量化与聚类的图像检索算法
图像检索
颜色量化
聚类
颜色直方图
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于频繁词义序列的检索结果聚类算法研究
来源期刊 计算机工程与应用 学科 工学
关键词 聚类算法 频繁项 信息检索 WordNet
年,卷(期) 2015,(1) 所属期刊栏目 博士论坛
研究方向 页码范围 13-20
页数 8页 分类号 TP391
字数 7666字 语种 中文
DOI 10.3778/j.issn.1002-8331.1406-0147
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王晓博 中科院新疆理化技术研究所多语种信息技术研究室 1 9 1.0 1.0
2 李晓 中科院新疆理化技术研究所多语种信息技术研究室 1 9 1.0 1.0
3 马博 中科院新疆理化技术研究所多语种信息技术研究室 1 9 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (7)
参考文献  (5)
节点文献
引证文献  (9)
同被引文献  (10)
二级引证文献  (5)
1979(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(6)
  • 引证文献(4)
  • 二级引证文献(2)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(4)
  • 引证文献(2)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
聚类算法
频繁项
信息检索
WordNet
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导