基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于传统信息检索技术的搜索引擎一般按照用户提交的查询获得一系列搜索结果,经过相关性排序之后返回给用户.相关研究表明,用户提交给搜索引擎的查询通常是短查询,且经常具有歧义性和宽泛性.另外,不同的用户在使用同一个查询词时,其查询需求也往往是不同的.此时若搜索引擎只进行相关性排序,则会面临搜索结果冗余性过大、无法有效覆盖用户意图的问题,对用户体验产生负面影响.为了满足用户需求,现有的搜索引擎在搜索排序过程中必须有效应对查询歧义性问题.搜索结果多样化是解决这个问题的方法之一,其目标是尽量提升搜索结果的多样性,让搜索结果尽可能多地覆盖不同用户的查询意图,以确保至少有一个结果可以命中实际的用户需求.和传统的搜索排序模型仅考虑文档和查询的相关性不同,多样化排序模型还需要进一步考虑文档的新颖性或者结果集对不同用户意图的覆盖度.现有的多样化算法,根据是否显式地衡量查询包含潜在用户意图所对应的子话题,可以分为隐式多样化模型和显式多样化模型.隐式多样化模型通常只考虑文档之间的相似性,即认为一份结果文档集中的每一个结果文档,彼此之间的不相似度越高,多样化程度越高;而显式多样化模型则显式地考虑不同查询所对应的不同用户意图(以子话题表示),通过衡量结果文档集对不同子话题覆盖的广度来衡量整体的多样化程度.根据多样化特征是人工指定的还是通过监督式学习自动获取的,可以分为启发式模型和学习式模型(也称为非监督式模型和监督式模型).启发式模型使用人工指定的文档相似度或子话题覆盖程度等相关特征来判断每一个文档对多样化的贡献,而学习式模型则可以通过监督式学习,自动地学习到最优化的多样化指标.这两种分类方法相互正交,理论上显式多样化模型优于隐式多样化模型,监督式模型优于非监督式模型,但实际上模型的具体表现也可能受到训练数据总量、子话题质量等其他因素影响.另外,最近学界对强化学习的研究也对信息检索领域产生了一定的影响,由于多样化排序过程也可以被视为一个依次选择每一个候选文档的决策过程,因此也有学者将强化学习引入了搜索结果多样化领域.本文介绍了搜索结果多样化的定义,并对现有多样化算法进行分类整理,详细介绍了每个类别中的代表性方法.我们还进一步介绍了搜索结果多样性评价方法,并给出了一系列方法的对照实验结果.最后,我们对搜索结果多样化技术研究的方向进行了展望.
推荐文章
XML关键词搜索结果的多样化
可扩展标记语言(XML)
关键词搜索
多样化
支持搜索结果多样化的排名算法比较研究
数据融合
搜索结果多样化
重排
稳定性
检索评价
膳食多样化与健康关系的研究进展
膳食多样化
营养充足状态
慢性病
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 搜索结果多样化研究综述
来源期刊 计算机学报 学科 工学
关键词 信息检索 用户意图 多样化 个性化 强化学习
年,卷(期) 2019,(12) 所属期刊栏目 数据科学与工程
研究方向 页码范围 2591-2613
页数 23页 分类号 TP18
字数 30446字 语种 中文
DOI 10.11897/SP.J.1016.2019.02591
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 窦志成 中国人民大学信息学院 7 1 1.0 1.0
2 秦绪博 1 0 0.0 0.0
3 文继荣 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (2)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1964(1)
  • 参考文献(1)
  • 二级参考文献(0)
1977(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(1)
2019(1)
  • 参考文献(0)
  • 二级参考文献(1)
2019(1)
  • 参考文献(0)
  • 二级参考文献(1)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
信息检索
用户意图
多样化
个性化
强化学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导