基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类.引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化.实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高.该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能.
推荐文章
基于子词信息的维吾尔语词项规范化
维吾尔语
自然语言处理
文本规范化
词嵌入
维吾尔语词向量的评测研究
词向量
维吾尔语
评测任务
字符序列标注的维吾尔语词干提取方法
词干提取
序列标注
条件随机场
特征提取
模型训练
预测结果
基于混合方法的维吾尔语词干提取方法研究
维吾尔语
形态变化
词干
词缀
规则方法
词典方法
混合方法
Lovin算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词向量的维吾尔语词项归一化方法
来源期刊 计算机工程 学科 工学
关键词 维吾尔语口语文本 非正规词 归一化 神经网络 重采样
年,卷(期) 2018,(2) 所属期刊栏目 人工智能及识别技术
研究方向 页码范围 220-225
页数 6页 分类号 TP391
字数 5722字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (11)
共引文献  (23)
参考文献  (8)
节点文献
引证文献  (4)
同被引文献  (11)
二级引证文献  (1)
1949(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
维吾尔语口语文本
非正规词
归一化
神经网络
重采样
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导