基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方法、建议的总结.最终,成功构建了波斯语到汉语、印地语到汉语、印度尼西亚语到汉语各50万条高质量平行语料.实验结果表明,所构建的平行语料库有较好的质量,提高了小语种神经机器翻译模型的训练效果.
推荐文章
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
汉英平行语料库的构建及其在医学文献翻译教学中的应用
平行语料库
检索工具
医学文献
翻译教学
面向维汉机器翻译的语料筛选技术研究
维汉机器翻译
语料筛选
语言模型
构建大规模的汉英双语平行语料库
机器翻译
双语平行语料库
语料库构建
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向小语种机器翻译的平行语料库构建方法
来源期刊 计算机科学 学科 工学
关键词 平行语料库 小语种 神经机器翻译模型
年,卷(期) 2022,(1) 所属期刊栏目 多语言计算前沿技术|Multilingual Computing Advanced Technology
研究方向 页码范围 41-46
页数 6页 分类号 TP391
字数 语种 中文
DOI 10.11896/jsjkx.210900012
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
平行语料库
小语种
神经机器翻译模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导