基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析.为了充分利用训练语料库,提高标注正确率,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进,提高了标注性能.封闭测试和开放测试的正确率分别达到96.5%和96%.
推荐文章
汉语分词和词性标注一体化分析的方法研究
汉语分词
词性标注
A*解码算法
汉语词性自动标注系统的设计与实现
词性自动标注系统
词表
语料库
粗糙集
搭配模式集
统计模型
汉语词性标注排歧方法探讨
词性标注同现概率矩阵语料库统计模型
基于单个词语特征模板的汉语词性标注
汉语词性标注
单个词语特征模板
最大熵模型
上下文
上下文窗口
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于统计的汉语词性标注方法的分析与改进
来源期刊 软件学报 学科 工学
关键词 词性标注 n元语法 语料 语法属性
年,卷(期) 2000,(4) 所属期刊栏目
研究方向 页码范围 473-480
页数 8页 分类号 TP18
字数 7799字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙玉芳 中国科学院软件研究所 98 2323 27.0 45.0
2 吴健 中国科学院软件研究所 60 513 11.0 20.0
3 魏欧 中国科学院软件研究所 2 109 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (90)
同被引文献  (35)
二级引证文献  (318)
1995(2)
  • 参考文献(2)
  • 二级参考文献(0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2000(1)
  • 引证文献(1)
  • 二级引证文献(0)
2001(4)
  • 引证文献(3)
  • 二级引证文献(1)
2002(2)
  • 引证文献(2)
  • 二级引证文献(0)
2003(4)
  • 引证文献(4)
  • 二级引证文献(0)
2004(8)
  • 引证文献(4)
  • 二级引证文献(4)
2005(13)
  • 引证文献(5)
  • 二级引证文献(8)
2006(19)
  • 引证文献(7)
  • 二级引证文献(12)
2007(24)
  • 引证文献(9)
  • 二级引证文献(15)
2008(32)
  • 引证文献(8)
  • 二级引证文献(24)
2009(25)
  • 引证文献(4)
  • 二级引证文献(21)
2010(25)
  • 引证文献(8)
  • 二级引证文献(17)
2011(19)
  • 引证文献(2)
  • 二级引证文献(17)
2012(26)
  • 引证文献(7)
  • 二级引证文献(19)
2013(23)
  • 引证文献(2)
  • 二级引证文献(21)
2014(35)
  • 引证文献(4)
  • 二级引证文献(31)
2015(33)
  • 引证文献(2)
  • 二级引证文献(31)
2016(17)
  • 引证文献(2)
  • 二级引证文献(15)
2017(38)
  • 引证文献(8)
  • 二级引证文献(30)
2018(33)
  • 引证文献(2)
  • 二级引证文献(31)
2019(23)
  • 引证文献(4)
  • 二级引证文献(19)
2020(4)
  • 引证文献(2)
  • 二级引证文献(2)
研究主题发展历程
节点文献
词性标注
n元语法
语料
语法属性
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
论文1v1指导