基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难.此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度.为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典.然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率.最后融合数字、标点、长度特征计算双语句对的相似度.在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率.
推荐文章
基于互译特征词对匹配的老-汉双语句子相似度计算方法研究
老-汉双语词典
相似度计算
算法改进
双语句对识别
词汇互译
实验验证
混合策略的汉维句子对齐
双语语料
句子对齐
混合策略
改进的自适应汉维句子对齐
双语语料
句子对齐
自适应
基于锚点句对的汉维句子对齐方法
平行语料库
句子对齐
锚点
基于长度的方法
基于词汇的方法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多特征融合和图匹配的维汉句子对齐
来源期刊 中文信息学报 学科 工学
关键词 句子对齐 人名、地名翻译 多特征融合 二部图最佳匹配
年,卷(期) 2016,(4) 所属期刊栏目 机器翻译
研究方向 页码范围 124-133
页数 10页 分类号 TP391
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学旗 中国科学院计算技术研究所 160 4858 31.0 67.0
2 许洪波 中国科学院计算技术研究所 42 988 14.0 31.0
3 倪耀群 中国科学院计算技术研究所 2 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (18)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1955(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
句子对齐
人名、地名翻译
多特征融合
二部图最佳匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家科技支撑计划
英文译名:
官方网址:http://kjzc.jhgl.org/
项目类型:重大项目
学科类型:能源
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导