基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的:探讨基于字符余弦相似度的地址数据治理方法,为医院病案室、传染病报病及科研统计分析提供患者的地址清洗数据.方法:使用字符的余弦相似度评估患者地址与标准数据集的相似条目,选取相似对最高的前10条地址后,通过弹性距离评估将匹配最好的第1个地址作为映射地址,若无合适地址则以"不详"进行地址标记,供患者下次就诊时更正.结果:经过人工复核,每200名患者手工填写的住址以95%置信区间(95%CI)可以正确修复170~186个地址;修复错误的地址多为患者填写的"某街道",而标准数据集中尚无该街道名称,对其关键词进行过滤可以进一步提高地址信息修复水平.经由热力图对比,地址修复后能够提供更清晰集中的位置信息.结论:通过采用基于字符余弦相似度的地址数据治理方法,拓展一种修复基础数据和进行数据映射的有效方法,可为医院相关部门提供准确的患者基础信息数据资料.
推荐文章
基于N-Gram和动态滑动窗口的改进余弦相似度算法研究
余弦相似度算法
N-Gram算法
数据清洗
动态滑动窗口
基于混合余弦相似度的中文文本层次关系挖掘
自然语言处理
层次关系
文本挖掘
混合余弦相似度
本体构建
计算字符串相似度的矩阵算法
匹配率
相似度
匹配矩阵
信息量
基于隐变量空间载荷余弦相似度的间歇过程递推优化
间歇过程
操作曲线优化
隐变量空间
余弦相似度
指标增量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字符余弦相似度的地址数据治理方法
来源期刊 中国医学装备 学科 医学
关键词 地址 数据治理 余弦相似度 弹性距离 信息增益
年,卷(期) 2019,(10) 所属期刊栏目 数字医学
研究方向 页码范围 94-97
页数 4页 分类号 R-058
字数 2491字 语种 中文
DOI 10.3969/J.ISSN.1672-8270.2019.10.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 夏慧敏 广州市妇女儿童医疗中心数据中心 44 213 7.0 12.0
2 李庆丰 广州市妇女儿童医疗中心数据中心 4 24 2.0 4.0
3 邓慧 广州市妇女儿童医疗中心数据中心 12 28 2.0 4.0
4 梁会营 广州市妇女儿童医疗中心数据中心 3 2 1.0 1.0
5 张帆 广州市妇女儿童医疗中心数据中心 2 0 0.0 0.0
6 张治国 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (37)
共引文献  (56)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(7)
  • 参考文献(0)
  • 二级参考文献(7)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(6)
  • 参考文献(3)
  • 二级参考文献(3)
2015(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(7)
  • 参考文献(2)
  • 二级参考文献(5)
2017(3)
  • 参考文献(1)
  • 二级参考文献(2)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
地址
数据治理
余弦相似度
弹性距离
信息增益
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国医学装备
月刊
1672-8270
11-5211/TH
大16开
北京市西城区南纬路27号
80-373
2004
chi
出版文献量(篇)
7730
总下载数(次)
12
总被引数(次)
30758
论文1v1指导