基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点.高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现.为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型.最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%.
推荐文章
基于BI_LSTM_CRF神经网络的序列标注中文分词方法
自然语言处理
中文分词
神经网络
双向长短时记忆条件随机场
字嵌入
序列标注
基于LSTM网络的中文地址分词法的设计与实现
中文地址
分词
卡短时记忆
未标记数据集
基于群集智能的CRF与规则结合的中文地址抽取
条件随机场
地址抽取
规则抽取方法
群集智能
ACG算法
组合
一种优化的用于中文分词的CRF机器学习模型
条件随机场
中文分词
字标注
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
来源期刊 中国电子科学研究院学报 学科
关键词 主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注
年,卷(期) 2021,(7) 所属期刊栏目 工程应用|Engineering and Application
研究方向 页码范围 639-644,660
页数 7页 分类号 TP183
字数 语种 中文
DOI 10.3969/j.issn.1673-5692.2021.07.002
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (57)
共引文献  (74)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(4)
  • 参考文献(1)
  • 二级参考文献(3)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(3)
  • 参考文献(1)
  • 二级参考文献(2)
2016(5)
  • 参考文献(0)
  • 二级参考文献(5)
2017(3)
  • 参考文献(0)
  • 二级参考文献(3)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(3)
  • 参考文献(3)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
主动学习
置信度
地址分词
双向长短时记忆网络
条件随机场
地址分词标注
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国电子科学研究院学报
月刊
1673-5692
11-5401/TN
大16开
北京市海淀区万寿路27号电子大厦电科院学报1313房间
2006
chi
出版文献量(篇)
2345
总下载数(次)
14
总被引数(次)
11602
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导