基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度.文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法.该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度.同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高.
推荐文章
HMM词性标注中高频生词的处理
隐马尔科夫模型
词性标注
生词处理
领域自适应的合成词词性标注研究
词性标注
支持向量机
基于转换学习
合成词
领域自适应
一种基于规则优先级的词性标注方法
汉语自动分词
词性标注
兼类词
规则优先级
一种新颖的词性标注模型
马氏族模型
词性标注
隐马尔可夫模型
Viterbi算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 词性标注中生词处理算法研究
来源期刊 中文信息学报 学科 工学
关键词 计算机应用 中文信息处理 自然语言理解 词性兼类 隐马尔科夫模型 语料库
年,卷(期) 2003,(5) 所属期刊栏目
研究方向 页码范围 1-5
页数 5页 分类号 TP391
字数 2623字 语种 中文
DOI 10.3969/j.issn.1003-0077.2003.05.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄河燕 中国科学院计算机语言信息工程研究中心 54 1398 18.0 36.0
2 陈肇雄 中国科学院计算机语言信息工程研究中心 37 1042 13.0 32.0
3 张孝飞 中国科技大学计算机系 2 42 2.0 2.0
7 蔡智 中国科技大学计算机系 1 40 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (40)
同被引文献  (21)
二级引证文献  (167)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2004(1)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(4)
  • 引证文献(2)
  • 二级引证文献(2)
2007(9)
  • 引证文献(6)
  • 二级引证文献(3)
2008(7)
  • 引证文献(3)
  • 二级引证文献(4)
2009(17)
  • 引证文献(6)
  • 二级引证文献(11)
2010(16)
  • 引证文献(3)
  • 二级引证文献(13)
2011(15)
  • 引证文献(1)
  • 二级引证文献(14)
2012(19)
  • 引证文献(4)
  • 二级引证文献(15)
2013(18)
  • 引证文献(2)
  • 二级引证文献(16)
2014(21)
  • 引证文献(5)
  • 二级引证文献(16)
2015(19)
  • 引证文献(4)
  • 二级引证文献(15)
2016(14)
  • 引证文献(0)
  • 二级引证文献(14)
2017(22)
  • 引证文献(2)
  • 二级引证文献(20)
2018(11)
  • 引证文献(0)
  • 二级引证文献(11)
2019(12)
  • 引证文献(0)
  • 二级引证文献(12)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
计算机应用
中文信息处理
自然语言理解
词性兼类
隐马尔科夫模型
语料库
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导