基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文分词应用中一个很重要的问题就是缺乏词的统一性定义.不同的分词标准会导致不同的分词结果,不同的应用也需要不同的分词结果.而针对不同的分词标准开发多个中文分词系统是不现实的,因此针对多种不同的分词标准,如何利用现有的分词系统进行灵活有效的输出就显得非常重要.本文提出了一种新的基于转换的学习方法,对分词结果进行后处理,可以针对不同的分词标准进行灵活有效的输出.不同于以往的用于分词的转换学习方法,该方法有效利用了一些语言学信息,把词类和词内结构信息引入规则模板和转换规则中.为了验证该方法,我们在4个标准测试集上进行了分词评测,取得了令人满意的效果.
推荐文章
一种基于双向LSTM的联合学习的中文分词方法
中文分词
大规模语料库
联合学习
双向长短时记忆模型
一种优化的用于中文分词的CRF机器学习模型
条件随机场
中文分词
字标注
一种新的SVM多层增量学习方法HISVML
支持向量机
增量学习
关键词学习
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新的错误驱动学习方法在中文分词中的应用
来源期刊 计算机科学 学科 工学
关键词 中文分词 规则模板 词类 词内结构 基于转换的学习(TBL)
年,卷(期) 2006,(3) 所属期刊栏目 人工智能与图像处理技术
研究方向 页码范围 160-164
页数 5页 分类号 TP3
字数 6435字 语种 中文
DOI 10.3969/j.issn.1002-137X.2006.03.044
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 肖建国 北京大学计算机科学技术研究所 30 478 12.0 21.0
2 夏新松 北京大学计算机科学技术研究所 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (14)
同被引文献  (27)
二级引证文献  (32)
1993(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2007(1)
  • 引证文献(1)
  • 二级引证文献(0)
2008(3)
  • 引证文献(3)
  • 二级引证文献(0)
2009(4)
  • 引证文献(2)
  • 二级引证文献(2)
2010(6)
  • 引证文献(2)
  • 二级引证文献(4)
2011(3)
  • 引证文献(0)
  • 二级引证文献(3)
2012(6)
  • 引证文献(2)
  • 二级引证文献(4)
2013(4)
  • 引证文献(1)
  • 二级引证文献(3)
2014(4)
  • 引证文献(0)
  • 二级引证文献(4)
2015(7)
  • 引证文献(3)
  • 二级引证文献(4)
2016(2)
  • 引证文献(0)
  • 二级引证文献(2)
2017(4)
  • 引证文献(0)
  • 二级引证文献(4)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
中文分词
规则模板
词类
词内结构
基于转换的学习(TBL)
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导