原文服务方: 现代电子技术       
摘要:
当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题.针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行了推理.该分词模型不仅在MSRA,PKU,CTB 6.0数据集上取得了很好的分词结果,而且在新闻数据、微博数据、汽车论坛数据、餐饮点评数据上进行了实验,实验结果表明,BI_LSTM_CRF模型不仅在测试集上有很好的分词性能,同时在跨领域数据测试上也有很好的泛化能力.
推荐文章
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
基于BI-GRU-CRF模型的中文分词法
循环神经网络
BI-GRU-CRF
中文分词
序列标注
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
基于门循环单元神经网络的中文分词法
自然语言处理
中文分词
门循环单元
字嵌入
循环神经网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于BI_LSTM_CRF神经网络的序列标注中文分词方法
来源期刊 现代电子技术 学科
关键词 自然语言处理 中文分词 神经网络 双向长短时记忆条件随机场 字嵌入 序列标注
年,卷(期) 2019,(1) 所属期刊栏目 网络与信息安全
研究方向 页码范围 95-99
页数 5页 分类号 TN711-34|TP391.1
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2019.01.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姚登峰 北京联合大学特殊教育学院 20 30 3.0 4.0
2 李晗静 北京联合大学北京市信息服务工程实验室 12 25 3.0 4.0
6 吕会华 北京联合大学特殊教育学院 19 64 5.0 7.0
7 姚茂建 北京联合大学北京市信息服务工程实验室 3 8 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (6)
同被引文献  (3)
二级引证文献  (0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
自然语言处理
中文分词
神经网络
双向长短时记忆条件随机场
字嵌入
序列标注
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导