作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则+统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.
推荐文章
一种新的图像语义自动标注与检索算法
图像检索
语义图像检索
图像语义
图像自动标注
一种结合空间特征的图像注意力标注算法改进研究
视觉注意力
图像标注
空间特征
一种改进的基于知网的词语语义相似度算法
词语语义相似度
义原距离
第一基本义原
加权因子
一种基于规则优先级的词性标注方法
汉语自动分词
词性标注
兼类词
规则优先级
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种字母词语自动标注算法
来源期刊 厦门大学学报(自然科学版) 学科 工学
关键词 字母词语 搭配系数 自动标注
年,卷(期) 2007,(5) 所属期刊栏目 研究论文
研究方向 页码范围 630-634
页数 5页 分类号 TP391.1
字数 5470字 语种 中文
DOI 10.3321/j.issn:0438-0479.2007.05.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑泽芝 厦门大学中国语言文学系 14 49 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (181)
参考文献  (8)
节点文献
引证文献  (5)
同被引文献  (20)
二级引证文献  (2)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(4)
  • 参考文献(0)
  • 二级参考文献(4)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(2)
  • 参考文献(2)
  • 二级参考文献(0)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
字母词语
搭配系数
自动标注
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
厦门大学学报(自然科学版)
双月刊
0438-0479
35-1070/N
大16开
福建省厦门市厦门大学囊萤楼218-221室
34-8
1931
chi
出版文献量(篇)
4740
总下载数(次)
7
总被引数(次)
51714
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导