基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F1值提高了3.51%.
推荐文章
遥感图像光照一致性定量评价
光照一致性校正
定量评价
Retinex
直方图均衡化
动态范围压缩
相位一致性的理解及两种新的相位一致性模型
相位一致性
计算机视觉
图像处理
边缘检测
基于本体的特征模型演化的一致性验证
本体
演化
一致性验证
本体特征模型的元模型
领域特征模型
产品特征模型
演化策略
一种基于ORB特征和运动一致性的图像校正算法
ORB特征
运动一致性
图像校正
拓扑约束
误配剔除
性能对比
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 结构特征一致性约束的双语平行句对抽取
来源期刊 重庆大学学报 学科 工学
关键词 双语平行句对 低资源语言 BERT预训练 孪生网络 结构
年,卷(期) 2021,(1) 所属期刊栏目
研究方向 页码范围 46-56
页数 11页 分类号 TP391
字数 语种 中文
DOI 10.11835/j.issn.1000-582X.2021.01.006
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(3)
  • 参考文献(0)
  • 二级参考文献(3)
2017(6)
  • 参考文献(0)
  • 二级参考文献(6)
2018(1)
  • 参考文献(0)
  • 二级参考文献(1)
2019(2)
  • 参考文献(1)
  • 二级参考文献(1)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
双语平行句对
低资源语言
BERT预训练
孪生网络
结构
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
重庆大学学报
月刊
1000-582X
50-1044/N
大16开
重庆市沙坪坝正街174号
78-16
1960
chi
出版文献量(篇)
6349
总下载数(次)
8
总被引数(次)
85737
论文1v1指导