基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文地址具有广泛的应用领域和应用价值,地址标准化是地址编码的基础,而地址编码技术是利用好地址数据的重要一环.本文基于双数组的极速多模式匹配的trie树来进行初步分词和词性标注,利用最长后缀匹配能够非常快速地找出包含行政区划的地址元素,以此为基础可以将地址切分成不同地址元素并标注等级,建立地址向量模型(AVSM).将AVSM中行政区划部分地址数据进行条件组合,找出可能的行政区划候选值.采用余弦相似度算法,计算出最佳的行政路径.对于后续非行政区等级元素,使用概率地址模型对各等级元素进行概率统计,利用贝叶斯求出最佳的组词概率,进一步处理其它各个级别的地址.最后通过有限状态机能够对整个地址等级进行各级元素的隶属调整和实现不同等级具体修复方法.该方法能够保证在海量的地址数据中实现快速切分的同时对行政缺失的地址数据进行补全,利用关键词和概率模型有效地识别登录词,兼顾分词性能和可维护性.
推荐文章
营销客户地址数据标准化应用分析与研究
地址用电地址
标准地址库
精细化管理
应用场景
一种基于有限状态机的中文地址标准化方法
中文地址
地址编码
地址标准化
地址分级模型
地址匹配
有限状态机
基于地址映射的分段式地址分配算法
地址分配
地址映射
地址扩展
路由算法
基于AC自动机匹配算法的入侵检测系统研究
模式匹配
算法
自动机
入侵检测系统(IDS)
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于AC自动机和地址概率模型的地址标准化算法
来源期刊 计算机与现代化 学科 工学
关键词 中文地址 标准化 AC自动机 自然语言处理
年,卷(期) 2018,(12) 所属期刊栏目 应用与开发
研究方向 页码范围 45-50
页数 6页 分类号 TP393
字数 语种 中文
DOI 10.3969/j.issn.1006-2475.2018.12.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘宇 8 20 2.0 4.0
5 张敬会 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (80)
共引文献  (76)
参考文献  (13)
节点文献
引证文献  (2)
同被引文献  (17)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(9)
  • 参考文献(0)
  • 二级参考文献(9)
2005(4)
  • 参考文献(1)
  • 二级参考文献(3)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(9)
  • 参考文献(0)
  • 二级参考文献(9)
2008(11)
  • 参考文献(0)
  • 二级参考文献(11)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(11)
  • 参考文献(3)
  • 二级参考文献(8)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(6)
  • 参考文献(3)
  • 二级参考文献(3)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(4)
  • 参考文献(1)
  • 二级参考文献(3)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文地址
标准化
AC自动机
自然语言处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导