基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果.该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究.通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性.实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果.
推荐文章
基于多粒度的蒙汉神经机器翻译研究
蒙汉神经机器翻译
翻译粒度
长短时记忆
Transformer
子词粒度
多策略切分粒度的藏汉双向神经机器翻译研究
音词融合
藏汉双向
神经机器翻译
维汉机器翻译未登录词识别研究
维汉机器翻译
短语表
字符串相似度算法
未登录词
词切分
编辑距离
基于Transformer的蒙汉神经机器翻译研究
Transformer
多头自注意力
粒度切分
神经机器翻译
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 子字粒度切分在蒙汉神经机器翻译中的应用
来源期刊 中文信息学报 学科 工学
关键词 蒙汉神经机器翻译 数据稀疏 子字粒度切分
年,卷(期) 2019,(1) 所属期刊栏目 机器翻译
研究方向 页码范围 85-92
页数 8页 分类号 TP391
字数 5025字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 侯宏旭 内蒙古大学计算机学院 23 215 7.0 14.0
2 任众 内蒙古大学计算机学院 2 4 1.0 2.0
3 吉亚图 内蒙古大学计算机学院 1 3 1.0 1.0
4 武子玉 内蒙古大学计算机学院 1 3 1.0 1.0
5 白天罡 内蒙古大学计算机学院 1 3 1.0 1.0
6 雷颖 内蒙古大学计算机学院 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (6)
参考文献  (4)
节点文献
引证文献  (3)
同被引文献  (2)
二级引证文献  (0)
1997(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
蒙汉神经机器翻译
数据稀疏
子字粒度切分
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
内蒙古自然科学基金
英文译名:Natural Science Foundation of Neimenggu Province
官方网址:http://www.btsti.com/policy/district/2005-1-27/20051271058235030.htm
项目类型:辽宁省自然科学基金
学科类型:
论文1v1指导