基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
推荐文章
基于CRFs和歧义模型的越南语分词
条件随机场模型
越南语分词
词法
基本特征
最大熵
歧义模型
融合越南语语言特征与改进PCFG的越南语短语树库构建
越南语
短语结构树
概率上下文无关文法
语法规则集
树库
“三语习得”视阈下广西壮族地区高校越南语课堂多元文化教育研究
“三语习得”
广西壮族地区高校
越南语课堂
多元文化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 越南语分词词典半监督集成构建算法
来源期刊 郑州大学学报(理学版) 学科 工学
关键词 半监督集成构建 分词词典 多音节词 n元音节词 越南语
年,卷(期) 2018,(1) 所属期刊栏目 信息科学
研究方向 页码范围 60-65
页数 6页 分类号 TP391.1
字数 3243字 语种 中文
DOI 10.13705/j.issn.1671-6841.2017175
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘伍颖 广东外语外贸大学语言工程与计算实验室 12 5 1.0 1.0
2 王琳 上海外国语大学贤达经济人文学院 9 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (3)
参考文献  (4)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(4)
  • 参考文献(2)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
半监督集成构建
分词词典
多音节词
n元音节词
越南语
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
郑州大学学报(理学版)
季刊
1671-6841
41-1338/N
大16开
郑州市高新技术开发区科学大道100号
36-191
1962
chi
出版文献量(篇)
2278
总下载数(次)
0
总被引数(次)
9540
论文1v1指导