基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
介绍从平行语料库中如何抽取双语短语翻译对.首先用统计模型正则期望从汉语专利语料库中抽取汉语短语.抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤.实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语翻译对的准确率为92.4%.
推荐文章
基于汉英短语翻译组合机器自动翻译系统设计与测试研究
短语翻译组合
机器自动翻译系统设计
实验仿真
英汉机器翻译中的短语自动识别算法
英汉机器翻译
短语自动识别
GLR算法
词性识别
高并发汉英信息抽取系统的设计与实现
大数据
高并发
信息抽取
TextRank
uWSGI
Nginx
Django
统计机器翻译中实例短语对研究
统计机器翻译
基于短语
基于实例
短语对
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 汉英短语翻译对的自动抽取
来源期刊 计算机应用与软件 学科 工学
关键词 抽取 过滤 汉英短语翻译对
年,卷(期) 2012,(7) 所属期刊栏目 基金项目论文
研究方向 页码范围 69-72
页数 分类号 TP181
字数 4712字 语种 中文
DOI 10.3969/j.issn.1000-386X.2012.07.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘颖 清华大学中国语言文学系 50 235 9.0 12.0
2 铁铮 清华大学中国语言文学系 6 9 2.0 3.0
3 余畅 清华大学中国语言文学系 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (15)
参考文献  (4)
节点文献
引证文献  (6)
同被引文献  (44)
二级引证文献  (16)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2015(3)
  • 引证文献(1)
  • 二级引证文献(2)
2016(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
抽取
过滤
汉英短语翻译对
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导