基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前,一些主流的判别学习算法只能优化光滑可导的损失函数,但在自然语言处理(natural language processing,简称NLP)中,很多应用的直接评价标准(如字符转换错误数(character error rate,简称CER))都是不可导的阶梯形函数.为解决此问题,研究了一种新提出的判别学习算法--最小化样本风险(minimum sample risk,简称MSR)算法.与其他判别训练算法不同,MSR算法直接使用阶梯形函数作为其损失函数.首先,对MSR算法的时空复杂性作了分析和提高;同时,提出了改进的算法MSR-II,使得特征之间相关性的计算更加稳定.此外,还通过大量领域适应性建模实验来考察MSR-II的鲁棒性.日文汉字输入实验的评测结果表明:(1) MSR/MSR-II显著优于传统三元模型,使错误率下降了20.9%;(2) MSR/MSR-II与另两类主流判别学习算法Boosting和Perceptron表现相当;(3) MSR-II不仅在时空复杂度上优于MSR,特征选择的稳定性也更高;(4) 领域适应性建模的结果证明了MSR-II的良好鲁棒性.总之,MSR/MSR-II是一种非常有效的算法.由于其使用的是阶梯形的损失函数,因此可以广泛应用于自然语言处理的各个领域,如拼写校正和机器翻译.
推荐文章
测试用例最小化研究
回归测试
测试用例集
测试用例最小化
测试覆盖率
测试运行代价
基于邻域风险最小化概率密度估计的自适应盲分离算法
邻域风险
概率密度估计
支持向量机
激活函数
自然梯度算法
盲分离
基于结构风险最小化的径向基插值
结构风险最小化
径向基插值
核函数
推广能力
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 语言建模中最小化样本风险算法的研究和改进
来源期刊 软件学报 学科 工学
关键词 语言建模 判别训练算法 输入法编辑器 最小化样本风险 领域适应性建模
年,卷(期) 2007,(2) 所属期刊栏目 算法设计与分析
研究方向 页码范围 196-204
页数 9页 分类号 TP391
字数 9103字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 步丰林 上海交通大学计算机科学与工程系 25 277 8.0 16.0
2 袁伟 上海交通大学计算机科学与工程系 4 11 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (2)
参考文献  (1)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
语言建模
判别训练算法
输入法编辑器
最小化样本风险
领域适应性建模
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
论文1v1指导