原文服务方: 计算机应用研究       
摘要:
当前中文地址的分词法主要采用基于规则和传统机器学习的方法.这些方法需要人工长期维护词典和提取特征.为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)网络分别应用在中文地址分词任务中,并采用四词位标注法以及增加未标记数据集的方法提升分词性能.在自建数据集上的实验结果表明,中文地址分词任务应用Bi-LSTM网络结构能得到较好的性能,在增加未标记数据集的情况下,可以有效提升模型的性能.
推荐文章
基于门循环单元神经网络的中文分词法
自然语言处理
中文分词
门循环单元
字嵌入
循环神经网络
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
基于异构数据联合训练的中文分词法
中文分词
深度学习
Bi-LSTM-CRF
异构数据
联合训练
语料库
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LSTM网络的中文地址分词法的设计与实现
来源期刊 计算机应用研究 学科
关键词 中文地址 分词 卡短时记忆 未标记数据集
年,卷(期) 2018,(12) 所属期刊栏目 算法研究探讨
研究方向 页码范围 3652-3654
页数 3页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2018.12.029
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程光 东南大学计算机科学与工程学院 59 1001 16.0 31.0
2 卢山 4 16 3.0 4.0
3 张文豪 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (76)
共引文献  (273)
参考文献  (11)
节点文献
引证文献  (8)
同被引文献  (17)
二级引证文献  (3)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(6)
  • 参考文献(1)
  • 二级参考文献(5)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(9)
  • 参考文献(0)
  • 二级参考文献(9)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(11)
  • 参考文献(1)
  • 二级参考文献(10)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(6)
  • 参考文献(2)
  • 二级参考文献(4)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(6)
  • 参考文献(0)
  • 二级参考文献(6)
2014(5)
  • 参考文献(1)
  • 二级参考文献(4)
2015(3)
  • 参考文献(1)
  • 二级参考文献(2)
2016(3)
  • 参考文献(2)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(4)
  • 引证文献(4)
  • 二级引证文献(0)
2020(5)
  • 引证文献(2)
  • 二级引证文献(3)
研究主题发展历程
节点文献
中文地址
分词
卡短时记忆
未标记数据集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导