基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量.
推荐文章
文档管理系统的语义模型研究
语义文档
本体
文档评注
基于语义的自动文摘研究综述
自然语言处理
自动文摘
语义
语义模型
本体
基于语义的文档关键词提取方法
语义距离
密度聚类
关键词提取
基于LSA和pLSA的多文档自动文摘
多文档自动文摘
潜在语义分析
奇异值分解
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于维基语义的多文档文摘研究
来源期刊 南京大学学报:自然科学版 学科 工学
关键词 自动文摘 语义分析 概念表示 维基百科
年,卷(期) 2011,(4) 所属期刊栏目 数据挖掘专栏
研究方向 页码范围 398-406
页数 分类号 TP39
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 田盛丰 北京交通大学计算机与信息技术学院 34 652 13.0 25.0
2 瞿有利 北京交通大学计算机与信息技术学院 19 179 6.0 13.0
3 龚书 北京交通大学计算机与信息技术学院 2 10 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (6)
同被引文献  (11)
二级引证文献  (47)
1958(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(1)
2011(2)
  • 引证文献(1)
  • 二级引证文献(1)
2012(7)
  • 引证文献(2)
  • 二级引证文献(5)
2013(9)
  • 引证文献(1)
  • 二级引证文献(8)
2014(14)
  • 引证文献(1)
  • 二级引证文献(13)
2015(7)
  • 引证文献(0)
  • 二级引证文献(7)
2016(2)
  • 引证文献(0)
  • 二级引证文献(2)
2017(5)
  • 引证文献(1)
  • 二级引证文献(4)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
自动文摘
语义分析
概念表示
维基百科
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
南京大学学报(自然科学版)
双月刊
0469-5097
32-1169/N
江苏省南京市南京大学
chi
出版文献量(篇)
2526
总下载数(次)
6
总被引数(次)
23071
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导