原文服务方: 计算机应用研究       
摘要:
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法.语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符.应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果.
推荐文章
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
基于BI_LSTM_CRF神经网络的序列标注中文分词方法
自然语言处理
中文分词
神经网络
双向长短时记忆条件随机场
字嵌入
序列标注
基于LSTM网络的中文地址分词法的设计与实现
中文地址
分词
卡短时记忆
未标记数据集
一种优化的用于中文分词的CRF机器学习模型
条件随机场
中文分词
字标注
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于双向LSTM的联合学习的中文分词方法
来源期刊 计算机应用研究 学科
关键词 中文分词 大规模语料库 联合学习 双向长短时记忆模型
年,卷(期) 2019,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2920-2924
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.03.0239
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐爱萍 武汉大学计算机学院 44 415 10.0 19.0
2 章登义 武汉大学计算机学院 33 236 8.0 14.0
3 胡思 武汉大学计算机学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (4)
二级引证文献  (0)
1996(2)
  • 参考文献(2)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文分词
大规模语料库
联合学习
双向长短时记忆模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导