基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文分词是中文信息处理领域的一项关键基础技术.随着中文信息处理应用的发展,专业领域中文分词需求日益增大.然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点.在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果.该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合.同时,为了综合利用各分词方法的优点,该文将加词典的方法 、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性.实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点.
推荐文章
跨领域中文评论的情感分类研究
跨领域
情感分类
知网
有监督机器学习方法
支持向量机
基于BI_LSTM_CRF神经网络的序列标注中文分词方法
自然语言处理
中文分词
神经网络
双向长短时记忆条件随机场
字嵌入
序列标注
一种优化的用于中文分词的CRF机器学习模型
条件随机场
中文分词
字标注
基于BLSTM-CRF中文领域命名实体识别框架设计
BLSTM-CRF
CBOW
Boson
命名实体识别
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于半监督CRF的跨领域中文分词
来源期刊 中文信息学报 学科
关键词 跨领域 中文分词 半监督CRF
年,卷(期) 2017,(4) 所属期刊栏目 语言分析与计算
研究方向 页码范围 9-19
页数 11页 分类号
字数 7248字 语种 中文
DOI 10.3969/j.issn.1003-0077.2017.04.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 罗智勇 北京语言大学语言信息处理研究所 9 186 5.0 9.0
2 邓丽萍 北京语言大学信息科学学院 1 22 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (210)
参考文献  (4)
节点文献
引证文献  (22)
同被引文献  (59)
二级引证文献  (23)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(3)
  • 参考文献(0)
  • 二级参考文献(3)
1997(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(3)
  • 参考文献(2)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(10)
  • 引证文献(8)
  • 二级引证文献(2)
2019(22)
  • 引证文献(12)
  • 二级引证文献(10)
2020(12)
  • 引证文献(1)
  • 二级引证文献(11)
研究主题发展历程
节点文献
跨领域
中文分词
半监督CRF
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
论文1v1指导