基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译.从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法.首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用GaleChurch算法进行句对齐,得到平行句对;最后统一进行后处理.实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%.
推荐文章
构建大规模的汉英双语平行语料库
机器翻译
双语平行语料库
语料库构建
大规模处理绿矾技术分析
绿矾
环保
硫酸法
钛白
基于互译特征词对匹配的老-汉双语句子相似度计算方法研究
老-汉双语词典
相似度计算
算法改进
双语句对识别
词汇互译
实验验证
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大规模双语句对自动获取技术
来源期刊 智能计算机与应用 学科 工学
关键词 平行句对挖掘 句对评价 对照网页识别 平行网页判断
年,卷(期) 2012,(3) 所属期刊栏目
研究方向 页码范围 72-75
页数 分类号 TP391
字数 5372字 语种 中文
DOI 10.3969/j.issn.2095-2163.2012.03.018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵铁军 哈尔滨工业大学计算机科学与技术学院 123 1278 19.0 32.0
2 王澍 哈尔滨工业大学计算机科学与技术学院 1 1 1.0 1.0
3 郑德权 哈尔滨工业大学计算机科学与技术学院 31 356 9.0 18.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (13)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
2003(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
平行句对挖掘
句对评价
对照网页识别
平行网页判断
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
智能计算机与应用
双月刊
2095-2163
23-1573/TN
大16开
哈尔滨市南岗区繁荣街155号(哈工大新技术楼916室)
14-144
1985
chi
出版文献量(篇)
6183
总下载数(次)
26
总被引数(次)
14240
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导