基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹配模型,训练模型捕获复述信息,然后将预训练的模型用于自然语言推理任务,改进其性能.在自然语言推理公开数据集上的评测结果表明,所构建的复述语料可有效地应用在复述识别任务中,模型可以学习复述知识.应用在自然语言推理任务中时,复述知识能有效地提升自然语言推理模型的精度,从而验证了复述知识对下游语义理解任务的有效性.所提出的复述语料构建方法不依赖语种,可为其他语言和领域提供更多的训练数据,生成高质量的复述数据,改进其他任务的性能.
推荐文章
汉英平行语料库的构建及其在医学文献翻译教学中的应用
平行语料库
检索工具
医学文献
翻译教学
构建大规模的汉英双语平行语料库
机器翻译
双语平行语料库
语料库构建
基于自动构建语料库的词汇级复述研究
词汇级复述
复述语料库
复述模型
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 复述平行语料构建及其应用方法研究
来源期刊 北京大学学报(自然科学版) 学科
关键词 复述语料构建 数据增强 迁移学习 复述识别 自然语言推理
年,卷(期) 2021,(1) 所属期刊栏目 专题报道:面向人工智能的自然语言分析与理解
研究方向 页码范围 68-74
页数 7页 分类号
字数 语种 中文
DOI 10.13209/j.0479-8023.2020.078
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
复述语料构建
数据增强
迁移学习
复述识别
自然语言推理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京大学学报(自然科学版)
双月刊
0479-8023
11-2442/N
16开
北京海淀北京大学校内
2-89
1955
chi
出版文献量(篇)
3152
总下载数(次)
8
总被引数(次)
52842
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导