基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
推荐文章
基于词典和句长及位置的双语对齐方法的改进
句子对齐
期望值
双语语料库
锚点
长度和位置
词典
改进的自适应汉维句子对齐
双语语料
句子对齐
自适应
混合策略的汉维句子对齐
双语语料
句子对齐
混合策略
基于互译特征词对匹配的老-汉双语句子相似度计算方法研究
老-汉双语词典
相似度计算
算法改进
双语句对识别
词汇互译
实验验证
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于锚点句对的汉维句子对齐方法
来源期刊 计算机工程 学科 工学
关键词 平行语料库 句子对齐 锚点 基于长度的方法 基于词汇的方法
年,卷(期) 2015,(4) 所属期刊栏目 ?人工智能及识别技术?
研究方向 页码范围 166-170
页数 5页 分类号 TP391
字数 5106字 语种 中文
DOI 10.3969/j.issn.1000-3428.2015.04.031
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吐尔根·伊布拉音 新疆大学信息科学与工程学院 18 76 6.0 8.0
2 侯敏 中国传媒大学国家语言资源监测与研究有声媒体中心 46 394 13.0 18.0
3 塞麦提·麦麦提敏 新疆大学信息科学与工程学院 9 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (28)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (37)
二级引证文献  (2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
平行语料库
句子对齐
锚点
基于长度的方法
基于词汇的方法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导