基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响.在构词粒度方面,分别考察了以基本字丁、基本字丁—音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%.
推荐文章
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
一种基于属性分割的产生式/判别式混合分类器
分类
产生式
判别式
属性分割
遗传算法
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
基于层次特征的藏文人名识别研究
人名识别
层次特征
藏文
条件随机场
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于判别式分类和重排序技术的藏文分词
来源期刊 中文信息学报 学科 工学
关键词 判别式 藏文分词 构词粒度 重排序
年,卷(期) 2014,(2) 所属期刊栏目 少数民族语言信息处理
研究方向 页码范围 61-65,90
页数 6页 分类号 TP391
字数 4246字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姜文斌 中国科学院计算技术研究所 17 153 8.0 12.0
5 孙萌 中国科学院计算技术研究所 5 27 3.0 5.0
14 吕雅娟 中国科学院计算技术研究所 18 162 9.0 12.0
18 才智杰 青海师范大学藏文信息研究中心 37 246 9.0 14.0
19 华却才让 青海师范大学藏文信息研究中心 18 86 6.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (41)
共引文献  (108)
参考文献  (8)
节点文献
引证文献  (9)
同被引文献  (36)
二级引证文献  (19)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(12)
  • 参考文献(2)
  • 二级参考文献(10)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(7)
  • 参考文献(2)
  • 二级参考文献(5)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2016(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(4)
  • 引证文献(1)
  • 二级引证文献(3)
2019(13)
  • 引证文献(3)
  • 二级引证文献(10)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
判别式
藏文分词
构词粒度
重排序
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导