基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值.尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低.该文提出了一种基于Transformer网络的中文单字词检错方法.首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库.其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果.实验表明,该方法具有较好的实用性.在自动生成的测试集上,识别准确率和召回率分别达到83.6% 和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8% 和61.4%.
推荐文章
基于字串切分统计词典的繁体中文拼写检错方法
中文语言处理
繁体中文拼写检错
中文分词
字串切分
统计词典
混淆集
面向中文矢量笔迹中单字详细分类的特征和方法比较
矢量笔迹文本
单字识别
单字分类
特征
分类器
基于Transformer的端到端路面裂缝检测方法
路面裂缝检测
多尺度特征融合
Pre-LN Transformer网络
联合回归损失
端到端
基于LBIST的纠检错电路验证方法与实现
逻辑内建自测试
纠检错电路
故障注入
单粒子翻转
线性反馈移位寄存器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Transformer网络的中文单字词检错方法研究
来源期刊 中文信息学报 学科 工学
关键词 单字词检错 Transformer网络 滑动窗口
年,卷(期) 2021,(1) 所属期刊栏目 自然语言处理应用
研究方向 页码范围 135-142
页数 8页 分类号 TP391
字数 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (26)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1964(1)
  • 参考文献(1)
  • 二级参考文献(0)
1980(1)
  • 参考文献(1)
  • 二级参考文献(0)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
2001(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
单字词检错
Transformer网络
滑动窗口
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导