作者:
原文服务方: 计算机应用研究       
摘要:
针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验任务中用于检错评测的1000句测试集作为实验测试集,并与此会议提交的结果进行比较,实验结果表明,与基于复杂语言模型的检错方法相比,该方法在实现简单的同时也有很好的检错效果,获得了较高的准确率和精确率以及较低的误报率。
推荐文章
基于统计的中文地址位置语义解析方法研究
中文分词
地名地址分词
互信息
信息熵
基于词频统计的中文分词的研究
中文分词
词频统计
互信息
N元统计模型
t-测试
基于统计方法的中文姓名识别研究
中文姓名识别
基于汉字
隐马尔可夫模型
互信息
心理教育量表繁体中文版和简体中文版在特殊儿童中应用的比较
心理教育量表中文版
孤独症谱系障碍
特殊儿童
评估
差异性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字串切分统计词典的繁体中文拼写检错方法
来源期刊 计算机应用研究 学科
关键词 中文语言处理 繁体中文拼写检错 中文分词 字串切分 统计词典 混淆集
年,卷(期) 2016,(5) 所属期刊栏目 算法研究与建模
研究方向 页码范围 1370-1373,1378
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2016.05.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾磊 南京邮电大学计算机学院 25 149 4.0 12.0
2 王勇 南京邮电大学计算机学院 65 476 11.0 20.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (31)
参考文献  (2)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1971(1)
  • 参考文献(0)
  • 二级参考文献(1)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(5)
  • 参考文献(0)
  • 二级参考文献(5)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(1)
  • 二级参考文献(2)
2001(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文语言处理
繁体中文拼写检错
中文分词
字串切分
统计词典
混淆集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导