原文服务方: 计算机应用研究       
摘要:
当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点.针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词.在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务.
推荐文章
基于门循环单元神经网络的中文分词法
自然语言处理
中文分词
门循环单元
字嵌入
循环神经网络
基于LSTM网络的中文地址分词法的设计与实现
中文地址
分词
卡短时记忆
未标记数据集
基于LSTM网络的中文地址分词法的设计与实现
中文地址
分词
卡短时记忆
未标记数据集
基于异构数据联合训练的中文分词法
中文分词
深度学习
Bi-LSTM-CRF
异构数据
联合训练
语料库
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LSTM网络的序列标注中文分词法
来源期刊 计算机应用研究 学科
关键词 中文分词 LSTM 字嵌入 自然语言处理
年,卷(期) 2017,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1321-1324,1341
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2017.05.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 封松林 中国科学院上海高等研究院 44 296 8.0 16.0
5 施俊 上海大学通信与信息工程学院 36 309 8.0 17.0
6 徐浩煜 中国科学院上海高等研究院 8 139 5.0 8.0
10 周晗 中国科学院上海高等研究院 6 116 3.0 6.0
11 任智慧 上海大学通信与信息工程学院 2 89 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (45)
共引文献  (209)
参考文献  (8)
节点文献
引证文献  (74)
同被引文献  (150)
二级引证文献  (166)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(6)
  • 参考文献(0)
  • 二级参考文献(6)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(14)
  • 参考文献(2)
  • 二级参考文献(12)
2009(6)
  • 参考文献(1)
  • 二级参考文献(5)
2010(6)
  • 参考文献(2)
  • 二级参考文献(4)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(7)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(7)
  • 二级引证文献(0)
2017(7)
  • 引证文献(7)
  • 二级引证文献(0)
2018(34)
  • 引证文献(27)
  • 二级引证文献(7)
2019(139)
  • 引证文献(33)
  • 二级引证文献(106)
2020(60)
  • 引证文献(7)
  • 二级引证文献(53)
研究主题发展历程
节点文献
中文分词
LSTM
字嵌入
自然语言处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导