作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征.在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算.提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集.针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能.
推荐文章
基于浅层文本分析的中文Web信息检索
中文信息处理
浅层文本分析
信息检索
语义检索
相似度计算
网络信息审计系统中的文本片断模糊分类算法
文本片段分类
信息审计
K-最近邻
模糊分类
中文语音合成中文档结构和文本规范化研究
文本分析
语音合成
规范化
算法
中文WEB文档自动分类系统的设计与实现
网络蜘蛛
中文分词
文档频度
NaIve
贝叶斯分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文档检索中文本片段化机制的研究
来源期刊 计算机科学与探索 学科 工学
关键词 文本片段化机制 文档检索 相关性评分 相关片段比例 片段整合计算
年,卷(期) 2020,(4) 所属期刊栏目 学术研究
研究方向 页码范围 578-589
页数 12页 分类号 TP391
字数 8678字 语种 中文
DOI 10.3778/j.issn.1673-9418.1912037
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘波 暨南大学信息科学技术学院计算机系 35 214 8.0 13.0
2 李宇 暨南大学信息科学技术学院计算机系 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (17)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(2)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(3)
  • 参考文献(1)
  • 二级参考文献(2)
2017(1)
  • 参考文献(0)
  • 二级参考文献(1)
2018(8)
  • 参考文献(3)
  • 二级参考文献(5)
2019(3)
  • 参考文献(2)
  • 二级参考文献(1)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本片段化机制
文档检索
相关性评分
相关片段比例
片段整合计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导