基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能.然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降.该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能.首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能.在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%.
推荐文章
汉语分词和词性标注一体化分析的方法研究
汉语分词
词性标注
A*解码算法
基于N元语法的汉语自动分词系统研究
一元语法
二元语法
中文分词
词性标注
基于音节标注的藏文自动分词研究
藏文
分词
序列标注
最大熵
条件随机场
最大间隔Markov网络模型
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于弱标注数据的汉语分词领域移植
来源期刊 中文信息学报 学科 工学
关键词 汉语分词 领域移植 弱标注数据
年,卷(期) 2019,(9) 所属期刊栏目 语言分析与计算
研究方向 页码范围 1-8
页数 8页 分类号 TP391
字数 6596字 语种 中文
DOI 10.3969/j.issn.1003-0077.2019.09.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张民 苏州大学计算机科学与技术学院 27 94 5.0 9.0
2 李正华 苏州大学计算机科学与技术学院 10 12 2.0 3.0
3 黄德朋 苏州大学计算机科学与技术学院 2 0 0.0 0.0
4 朱运 苏州大学计算机科学与技术学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
汉语分词
领域移植
弱标注数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导