基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的:基于BERT对医院近4年的肺部影像非结构化文本报告中的肺结节直径大小进行归类处理,以开发和利用非结构化数据的临床应用效能.方法:通过KETTLE清洗医院近4年有关肺结节的影像文本报告数据,随机选取500个样本报告,对报告中关于肺结节直径大小进行3分类标注,分别是:<8 mm、≥8 mm和未作描述;将标注的样本数据利用第四范式的基于BERT模型的文本分类模块进行自动机器学习,并发布成服务.结果:训练过程中,500个样本报告数据通过自动学习后,模型的准确率达到88.46%;之后对近4年13万份的肺结节报告通过训练后的模型进行了分类推论,并从中随机抽查了500份归类报告(不同于训练用数据),有462份符合实际情况,准确率高达92.40%.结论:BERT在非结构化医疗文本数据处理中更加方便,训练的样本量更少,准确率更高,降低了医疗文本利用最新自然语言处理技术进行学习的门槛.
推荐文章
信息系统中非结构化文本数据的输入技术研究
信息系统
非结构化数据
输入技术
键词
非结构化海量网络数据处理技术研究
IENA
XNET/INET
PCAP
飞行试验
基于非结构化文本检索模型综述
相似度计算
检索模型
语义检索
概率相关性
数学理论
非结构化数据的ETL设计
非结构化数据
结构化数据
CWM
ETL
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于BERT在非结构化医疗文本数据处理中的研究与应用
来源期刊 中国数字医学 学科 医学
关键词 BERT 非结构化数据 肺结节 KETTLE 自然语言处理
年,卷(期) 2022,(2) 所属期刊栏目 新技术应用|Application of New Technology
研究方向 页码范围 30-33
页数 4页 分类号 R319
字数 语种 中文
DOI 10.3969/j.issn.1673-7571.2022.2.007
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
BERT
非结构化数据
肺结节
KETTLE
自然语言处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国数字医学
月刊
1673-7571
11-5550/R
大16开
北京市朝阳区光华路甲8号和乔大厦A座528A室
80-133
2006
chi
出版文献量(篇)
6783
总下载数(次)
21
总被引数(次)
25598
论文1v1指导