基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的 针对医疗数据发布和共享中患者隐私泄露风险以及人工去标识效率低的问题,本文提出了一种基于规则和机器学习结合的算法,以有效去除电子病历中的患者隐私信息.方法 根据美国健康可携行与责任性法案和中文电子病历的表达习惯,将隐私数据分为数字、日期及命名实体三大类,利用正则表达式识别数字以及日期隐私数据,引入隐马尔科夫模型识别命名实体.最后使用上海市第六人民医院的出院小结作为测试数据,利用留出法测试了隐私数据识别的召回率和精确率.结果 该模型总体得到了超过90%的召回率,其中数字和日期类型的隐私数据召回率都超过96%,中文人名的识别效果也超过了单人识别的效果.结论 规则和机器学习结合的模型有效地识别了患者的隐私数据,有助于医疗数据的共享.
推荐文章
基于规则和词共现的中文电子病历否定检出
词共现
正向最大匹配
互信息
否定检出
基于中文电子病历的跨科室组块分析
中文电子病历
词性标注
组块分析
领域适应
结构化支持向量机
基于多特征融合的中文电子病历命名实体识别
中文电子病历
命名实体识别
多特征融合
条件随机场
面向中文电子病历的句法分析融合模型
中文电子病历
完全句法分析
面向数据句法分析
层次句法分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于规则和机器学习的中文电子病历患者隐私保护算法
来源期刊 北京生物医学工程 学科 医学
关键词 隐私保护 电子病历 命名实体 正则表达式 隐马尔科夫模型
年,卷(期) 2019,(5) 所属期刊栏目 论著
研究方向 页码范围 492-497
页数 6页 分类号 R318.04
字数 4610字 语种 中文
DOI 10.3969/j.issn.1002-3208.2019.05.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑西川 62 703 15.0 22.0
2 王阳阳 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (29)
共引文献  (99)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(3)
  • 参考文献(2)
  • 二级参考文献(1)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(4)
  • 参考文献(0)
  • 二级参考文献(4)
2013(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(8)
  • 参考文献(1)
  • 二级参考文献(7)
2015(4)
  • 参考文献(3)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
隐私保护
电子病历
命名实体
正则表达式
隐马尔科夫模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京生物医学工程
双月刊
1002-3208
11-2261/R
16开
北京安定门外安贞医院
1981
chi
出版文献量(篇)
2829
总下载数(次)
13
总被引数(次)
15960
论文1v1指导