基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体.该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文医疗实体识别的高效性.
推荐文章
基于中文电子病历的跨科室组块分析
中文电子病历
词性标注
组块分析
领域适应
结构化支持向量机
基于CNN-CRF的中文电子病历命名实体识别研究
实体识别
中文电子病历
卷积神经网路
条件随机场
CRF与规则相结合的医学病历实体识别
电子病历
病历实体
命名实体识别
条件随机场
决策树
基于电子病历的实体识别和知识图谱构建的研究
实体识别
实体关系
长短时记忆网络
知识图谱
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域词典与CRF双层标注的中文电子病历实体识别
来源期刊 工程科学学报 学科 工学
关键词 中文电子病历 医疗实体识别 领域词典 条件随机场 注意力机制
年,卷(期) 2020,(4) 所属期刊栏目
研究方向 页码范围 469-475
页数 7页 分类号 TP391.1
字数 5013字 语种 中文
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (127)
共引文献  (201)
参考文献  (18)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(12)
  • 参考文献(1)
  • 二级参考文献(11)
2010(9)
  • 参考文献(0)
  • 二级参考文献(9)
2011(15)
  • 参考文献(1)
  • 二级参考文献(14)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(3)
  • 参考文献(0)
  • 二级参考文献(3)
2014(24)
  • 参考文献(4)
  • 二级参考文献(20)
2015(9)
  • 参考文献(1)
  • 二级参考文献(8)
2016(7)
  • 参考文献(1)
  • 二级参考文献(6)
2017(12)
  • 参考文献(1)
  • 二级参考文献(11)
2018(10)
  • 参考文献(8)
  • 二级参考文献(2)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文电子病历
医疗实体识别
领域词典
条件随机场
注意力机制
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
工程科学学报
月刊
2095-9389
10-1297/TF
大16开
北京海淀区学院路30号
1955
chi
出版文献量(篇)
4988
总下载数(次)
18
总被引数(次)
47371
论文1v1指导