作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模.目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用.本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果.
推荐文章
基于海绵函数的快速伪随机序列生成方法
海绵函数
伪随机序列
编码理论
正则字
校验子译码
基于FPGA的伪随机序列的生成方法及应用
伪随机序列
FPGA
M序列
自适应光学
随机并行梯度下降算法
源于生活又服务于生活
教材
内容
生活化
软件缺陷检查单的动态生成方法
缺陷检查单
缺陷源数据库
树形表结构
软件测试质量保证
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 服务于拼写检查的伪语料生成方法实现
来源期刊 数字技术与应用 学科
关键词 伪语料生成 中文拼写检查 编辑距离
年,卷(期) 2021,(1) 所属期刊栏目 设计开发
研究方向 页码范围 177-179
页数 3页 分类号 TP391.1
字数 语种 中文
DOI 10.19695/j.cnki.cn12-1369.2021.01.55
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
伪语料生成
中文拼写检查
编辑距离
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数字技术与应用
月刊
1007-9416
12-1369/TN
16开
天津市
6-251
1983
chi
出版文献量(篇)
20434
总下载数(次)
106
总被引数(次)
35701
论文1v1指导