基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出.针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出.实验结果表明,2种方法能提高藏文自动分词的识别正确率.
推荐文章
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
基于扩展规则与统计特征的未登录词识别
未登录词
扩展规则
词频
互信息
邻接熵
维汉机器翻译未登录词识别研究
维汉机器翻译
短语表
字符串相似度算法
未登录词
词切分
编辑距离
基于词频学习和动态词频更新的藏文自动分词系统设计
藏文自动分词
自然语言处理
格助词
动态词频更新
歧义处理
未登录词识别
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 藏文自动分词中未登录词处理方法研究
来源期刊 计算机工程 学科 工学
关键词 藏文信息处理 词缀归并 未登录词 分词碎片整合
年,卷(期) 2012,(17) 所属期刊栏目 软件技术与数据库
研究方向 页码范围 46-48
页数 分类号 TP391.1
字数 3042字 语种 中文
DOI 10.3969/j.issn.1000-3428.2012.17.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 羊毛卓玛 西藏大学工学院 3 15 3.0 3.0
3 高定国 西藏大学工学院 40 113 6.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (82)
参考文献  (7)
节点文献
引证文献  (5)
同被引文献  (14)
二级引证文献  (5)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(3)
  • 参考文献(0)
  • 二级参考文献(3)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(2)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(2)
  • 引证文献(2)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
藏文信息处理
词缀归并
未登录词
分词碎片整合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导