基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在啥萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词.在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议.实验结果表明,系统的查错与纠错效率较好,实验方案是可行的.
推荐文章
多特征的中文文本校对算法的研究
语言结构特征
格子图
马尔可夫模型
基于N-gram语言模型的哈萨克文机构名识别
N-gram
语言模型
哈萨克文机构名识别
实体名识别
用于文本校对的分词与词性标注一体化算法
文本校对
分词
词性标注
一体化算法
利用N-gram和语义分析的维吾尔语文本相似性检测方法
维吾尔语
文本相似性检测
N-gram统计模型
潜在语义分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于N-gram的哈萨克语文本校对系统的设计与实现
来源期刊 计算机应用与软件 学科 工学
关键词 文本自动校对 哈萨克语 最小编辑距离 N元语法 模式匹配
年,卷(期) 2012,(4) 所属期刊栏目 基金项目论文
研究方向 页码范围 9-12,15
页数 分类号 TP399
字数 6457字 语种 中文
DOI 10.3969/j.issn.1000-386X.2012.04.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 古丽拉·阿东别克 新疆大学信息科学与工程学院 39 258 8.0 14.0
2 玛依来·哈帕尔 新疆大学信息科学与工程学院 3 11 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (57)
参考文献  (7)
节点文献
引证文献  (5)
同被引文献  (24)
二级引证文献  (6)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(4)
  • 参考文献(2)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(3)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(4)
  • 引证文献(1)
  • 二级引证文献(3)
研究主题发展历程
节点文献
文本自动校对
哈萨克语
最小编辑距离
N元语法
模式匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导