基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.
推荐文章
基于词向量的维吾尔语词项归一化方法
维吾尔语口语文本
非正规词
归一化
神经网络
重采样
字符序列标注的维吾尔语词干提取方法
词干提取
序列标注
条件随机场
特征提取
模型训练
预测结果
基于混合方法的维吾尔语词干提取方法研究
维吾尔语
形态变化
词干
词缀
规则方法
词典方法
混合方法
Lovin算法
采用相关反馈和文档相似度的维吾尔语检索词加权方法
维吾尔语
文档检索
检索词加权
相关反馈
文档相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于子词信息的维吾尔语词项规范化
来源期刊 厦门大学学报(自然科学版) 学科 工学
关键词 维吾尔语 自然语言处理 文本规范化 词嵌入
年,卷(期) 2019,(2) 所属期刊栏目 民族语言处理
研究方向 页码范围 217-224
页数 8页 分类号 TP391
字数 6159字 语种 中文
DOI 10.6043/j.issn.0438-0479.201811022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王磊 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 346 2763 24.0 41.0
2 杨雅婷 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 26 79 6.0 8.0
3 米成刚 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 8 44 4.0 6.0
4 张新路 中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (3)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1949(1)
  • 参考文献(0)
  • 二级参考文献(1)
1954(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
维吾尔语
自然语言处理
文本规范化
词嵌入
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
厦门大学学报(自然科学版)
双月刊
0438-0479
35-1070/N
大16开
福建省厦门市厦门大学囊萤楼218-221室
34-8
1931
chi
出版文献量(篇)
4740
总下载数(次)
7
总被引数(次)
51714
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导