基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
语料库的构建是自然语言处理领域的重要工作.但是,双语平行语料库的规模和领域并不能满足实际的需求,尤其是在维吾尔语信息处理中表现得更加明显.因此,从互联网上挖掘汉维双语资源的工作,对于汉维双语资源的建设、促进民族之间的交流具有十分重要的作用.本文针对维吾尔语复杂多变以及汉维语言形态差异大等特点,研究并设计了汉维可比语料挖掘系统.本系统主要包括汉维网页正文抽取,汉维可比语料候选获取以及跨语言相似度计算等几个部分.目前已经有5000个汉维可比语料篇章,主要是新闻领域语料和政府公文等.该语料库对于少数民族语言分析与教学,汉维机器翻译等领域具有十分重要的作用.为了使用的便利,本数据集对汉语和维吾尔语进行了进一步的加工和规范化操作.
推荐文章
面向维汉机器翻译的语料筛选技术研究
维汉机器翻译
语料筛选
语言模型
基于特征相似度的可比语料挖掘汉柬命名实体等价对
命名实体等价对
汉柬双语
多特征融合
可比语料
音译模型
面向维汉机器翻译的语料筛选技术研究
维汉机器翻译
语料筛选
语言模型
面向数据集的ST-SNE算法高维数据降维研究
数据降维
二阶邻近距离
ST-SNE
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 汉维可比语料数据集
来源期刊 中国科学数据 学科
关键词 语料库建设 可比语料 汉维 数据挖掘
年,卷(期) 2020,(1) 所属期刊栏目 非专题数据论文
研究方向 页码范围 163-168
页数 6页 分类号
字数 语种 中文
DOI 10.11922/csdata.2019.0010.zh
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (34)
共引文献  (51)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1958(2)
  • 参考文献(0)
  • 二级参考文献(2)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(3)
  • 参考文献(3)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
语料库建设
可比语料
汉维
数据挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国科学数据(中英文网络版)
季刊
2096-2223
11-6035/N
北京市海淀区中关村南四街4号2号楼403
2016
chi
出版文献量(篇)
317
总下载数(次)
600
总被引数(次)
155
论文1v1指导