基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
查询分面是用于描述查询某一方面内容的一组并列的词或词组.现有的查询分面挖掘方法主要通过模式挖掘搜索结果中包含的高频列表,并利用无监督或有监督的方法对高频列表进行聚类,最终得到查询分面.因为通常采用的搜索结果的数目有限,这种方法挖掘出的查询分面及其包含的分面项的覆盖率不高.针对这一问题,该文提出了一种基于从大规模网页中构建的词项图的查询分面挖掘方法.首先基于大规模网页数据集构建词项图,图中的节点代表词项,边代表两个词项的相似性.针对每个查询,从搜索结果中挖掘出初始分面,然后基于词项图对这些初始查询分面进行扩充,找到词项图中与初始分面类似的候选词,对候选词抽取多种特征,最后利用支持向量机对候选词进行分类,预测词项是否可为扩充词项,并将预测为正例的词项扩充到分面中.该扩充过程迭代多次直到无法找到更多分面项.实验表明该方法可有效提高查询分面的质量,尤其是能够显著改善分面项的覆盖率.
推荐文章
基于数据图的关系数据库关键词查询排序研究
关系数据库
数据图
关键词查询
关键词词频
信息量
排序
具有孤立项过滤的信息检索查询词的分析方法
信息检索
查询词临近性
孤立项
词汇相似度
基于差分隐私的不确定数据频繁项集挖掘算法
差分隐私
不确定数据的频繁项集
截断期望支持度
基于概念格的查询扩展词推荐
查询扩展
概念抽取
概念格
规则抽取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词项图分析的查询分面挖掘方法
来源期刊 计算机学报 学科 工学
关键词 查询分面 用户意图 频繁列表 词项图 知识库 社会媒体 社会计算
年,卷(期) 2017,(3) 所属期刊栏目 社会媒体分析和挖掘
研究方向 页码范围 556-569
页数 14页 分类号 TP18
字数 14954字 语种 中文
DOI 10.11897/SP.J.1016.2017.00556
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张宜春 5 37 1.0 5.0
2 窦志成 中国人民大学信息学院 7 1 1.0 1.0
3 江政宝 中国人民大学信息学院 1 1 1.0 1.0
4 李谨秀 中国人民大学信息学院 1 1 1.0 1.0
5 文继荣 中国人民大学信息学院 11 86 2.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (1)
同被引文献  (3)
二级引证文献  (2)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
查询分面
用户意图
频繁列表
词项图
知识库
社会媒体
社会计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导