基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
跨语系术语对齐质量不高,原因在于其依赖于低质量的术语抽取与对齐.提出的多策略融合Giza++(AGiza)的术语对齐法,为提高术语抽取质量,用首尾词性规则提高召回率,用独立过滤、停用过滤提高准确率,再识别共句术语对.为提高术语对齐的对准率:基于独立度、停用度,提出独立相关度、停用相关度;由种子对相关度和单词关联度概率加组合成语义相关度;根据首尾对齐情况,提出首尾相关度,并去除值为0者;基于词性组成特征,构造词性相似度;由GIZA++计算得到g值;经过属性的相关系数分析后,乘法组合各属性构造术语对齐度α;最后,过滤α超过术语对齐阈值(由召回率设定)的术语对.实验结果表明,AGiza术语对齐,可有效地处理跨语系术语对齐,质量高于GIZA++,Dice,Φ2,LLR,K-VEC及DKVEC.
推荐文章
GIZA++计算性能分析
机器翻译
GIZA++
计算性能分析
基于多策略融合的专利术语自动抽取
专利术语
术语抽取
PageRank
术语区别度
义原信息
英中可比语料库中多词表达自动提取与对齐
三元组可比语料库
多词表达(MWE)
语义模板
基于语序位置特征的汉英术语对自动抽取研究
汉英术语抽取
汉英术语对齐
语序位置特征
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多策略融合Giza++的术语对齐法
来源期刊 软件学报 学科 工学
关键词 术语对齐 多语言术语抽取 跨语言 跨语系
年,卷(期) 2015,(7) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 1650-1661
页数 12页 分类号 TP391
字数 11244字 语种 中文
DOI 10.13328/j.cnki.jos.004615
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱东华 北京理工大学管理与经济学院 154 2214 24.0 39.0
2 刘胜奇 北京理工大学管理与经济学院 4 66 4.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (65)
参考文献  (18)
节点文献
引证文献  (4)
同被引文献  (14)
二级引证文献  (4)
1945(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(3)
  • 参考文献(2)
  • 二级参考文献(1)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(4)
  • 参考文献(2)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(8)
  • 参考文献(4)
  • 二级参考文献(4)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(3)
  • 参考文献(3)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
术语对齐
多语言术语抽取
跨语言
跨语系
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
论文1v1指导