基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
多词单元包括固定搭配、多词习语和多词术语等.本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题.另外,对短语翻译词典的分级,有效地减少了高级别词典中非正确翻译项的数目,使得翻译词典具有更好的实用性.
推荐文章
融合特征约束模型的纳西-汉语双语词语对齐算法
词语对齐
纳西
汉语
特征约束模型
基于柬汉双语词对齐语料构建柬埔寨语依存树库
柬汉词对齐平行语料库
柬埔寨语依存树库
词向量
基于词向量与可比语料库的双语词典提取研究
双语词典
词向量
词间关系
可比语料库
基于语料库的电力法语词汇教学研究
语料库语言学
电力
词汇
专门用途法语
思维导图
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于双语语料的单个源语词汇和目标语多词单元的对齐
来源期刊 中文信息学报 学科 工学
关键词 人工智能 机器翻译 双语对齐 多词单元 翻译词典 平均关联值 关联值归一化差值
年,卷(期) 2003,(1) 所属期刊栏目
研究方向 页码范围 13-19
页数 7页 分类号 TP391.2
字数 5259字 语种 中文
DOI 10.3969/j.issn.1003-0077.2003.01.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杜利民 中国科学院声学研究所语音交互技术研究中心 58 892 13.0 29.0
2 陈博兴 中国科学院声学研究所语音交互技术研究中心 3 11 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (9)
同被引文献  (6)
二级引证文献  (46)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2003(1)
  • 引证文献(1)
  • 二级引证文献(0)
2004(2)
  • 引证文献(2)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(1)
  • 引证文献(1)
  • 二级引证文献(0)
2007(3)
  • 引证文献(1)
  • 二级引证文献(2)
2008(2)
  • 引证文献(0)
  • 二级引证文献(2)
2009(7)
  • 引证文献(1)
  • 二级引证文献(6)
2010(6)
  • 引证文献(0)
  • 二级引证文献(6)
2011(5)
  • 引证文献(0)
  • 二级引证文献(5)
2012(5)
  • 引证文献(2)
  • 二级引证文献(3)
2013(4)
  • 引证文献(0)
  • 二级引证文献(4)
2014(3)
  • 引证文献(0)
  • 二级引证文献(3)
2015(6)
  • 引证文献(0)
  • 二级引证文献(6)
2016(3)
  • 引证文献(0)
  • 二级引证文献(3)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
人工智能
机器翻译
双语对齐
多词单元
翻译词典
平均关联值
关联值归一化差值
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
相关基金
国家重点基础研究发展计划(973计划)
英文译名:National Basic Research Program of China
官方网址:http://www.973.gov.cn/
项目类型:
学科类型:农业
论文1v1指导