基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP 算法的匹配跳跃思想,提出中文字符串匹配的类KMP 算法,并对算法进行实验验证.结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重.算法开放测试的召回率达94%,去重准确率达到84%.算法可以应用于任何长度的语句比对,适用范围广.
推荐文章
构建大规模的汉英双语平行语料库
机器翻译
双语平行语料库
语料库构建
面向事件的多语平行语料库构建研究
语料收集原则
标注规范
可控多语语料库
基于平行语料库的双语术语抽取系统研究
平行语料库
词对齐
共现矩阵
相似度函数
双语术语抽取
汉英平行语料库的构建及其在医学文献翻译教学中的应用
平行语料库
检索工具
医学文献
翻译教学
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 平行语料库的相似语句去重算法
来源期刊 广西科学院学报 学科 工学
关键词 去重 相似句子 平行语料库 类KMP
年,卷(期) 2009,(4) 所属期刊栏目
研究方向 页码范围 248-250,256
页数 4页 分类号 TP391.3
字数 3511字 语种 中文
DOI 10.3969/j.issn.1002-7378.2009.04.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄家裕 3 18 3.0 3.0
2 刘连芳 广西大学计算机与电子信息学院 10 184 6.0 10.0
6 申文明 广西大学计算机与电子信息学院 3 18 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (43)
参考文献  (4)
节点文献
引证文献  (4)
同被引文献  (37)
二级引证文献  (2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
去重
相似句子
平行语料库
类KMP
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广西科学院学报
季刊
1002-7378
45-1075/N
大16开
广西南宁市大岭路98号
1982
chi
出版文献量(篇)
1934
总下载数(次)
0
论文1v1指导