基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在分析现有藏文分词方法的基础上,该文重点研究了葳文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法.应用这些方法,设计实现了一个藏文分词系统SegT.该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别.系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧.实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低.系统最终分词正确率为96.98%,基本达到了实用的水平.
推荐文章
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
集音节、梵文和词汇于一体的藏文智能输入系统
藏文
音节
基字编码
智能输入
基于层次特征的藏文人名识别研究
人名识别
层次特征
藏文
条件随机场
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 SegT:一个实用的藏文分词系统
来源期刊 中文信息学报 学科 工学
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
年,卷(期) 2012,(1) 所属期刊栏目
研究方向 页码范围 97-103
页数 分类号 TP391
字数 6060字 语种 中文
DOI 10.3969/j.issn.1003-0077.2012.01.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘汇丹 中国科学院软件研究所 17 85 5.0 8.0
5 诺明花 中国科学院软件研究所 8 71 4.0 8.0
9 赵维纳 1 30 1.0 1.0
13 吴健 中国科学院软件研究所 60 513 11.0 20.0
14 贺也平 中国科学院软件研究所 46 727 16.0 26.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (138)
参考文献  (7)
节点文献
引证文献  (30)
同被引文献  (110)
二级引证文献  (83)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(6)
  • 参考文献(4)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(5)
  • 引证文献(5)
  • 二级引证文献(0)
2014(10)
  • 引证文献(6)
  • 二级引证文献(4)
2015(14)
  • 引证文献(5)
  • 二级引证文献(9)
2016(18)
  • 引证文献(2)
  • 二级引证文献(16)
2017(13)
  • 引证文献(1)
  • 二级引证文献(12)
2018(17)
  • 引证文献(4)
  • 二级引证文献(13)
2019(28)
  • 引证文献(3)
  • 二级引证文献(25)
2020(6)
  • 引证文献(2)
  • 二级引证文献(4)
研究主题发展历程
节点文献
藏文分词
格助词
临界词识别
词频统计
藏文信息处理
中文信息处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导