文本相似度计算方法在诊断名称数据标准化中的应用

杨桂秀; 谷红俊; 王杰; 陈俊峰; 陈勇强; 磨国鑫

文献导航

搜索文章

搜索思路

钛学术文献服务平台 \
学术期刊 \
医药卫生期刊 \
预防医学与卫生学期刊 \
中国病案期刊 \
文本相似度计算方法在诊断名称数据标准化中的应用

文本相似度计算方法在诊断名称数据标准化中的应用

作者：

杨桂秀谷红俊王杰陈俊峰陈勇强磨国鑫

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

诊断名称

数据标准化

文本相似度

穷举分词

摘要：

目的选用文本相似度的计算方法和思路进行辅助,以期提高诊断名称数据标准化过程中人工判断的效率.方法以《疾病分类与代码国家临床版2.0》为例,利用余弦相似度计算文本相似度,用单字与单字组合的穷举分词和频数、逆文本频率指数加权的算法生成文本向量,使用Microsoft Office Excel 2016的函数完成对计算结果的校验.结果诊断名称数据中单字至9字组的数目中,在3字组之后,字组不再几何级数增长,5字组之后出现下降.通过计算频数和频数乘以逆文本频率指数两种方式构建的文本向量文本相似度得出Ⅰ至Ⅸ字组组合模式下两种文本向量的相似度最大值的结果.在9种字组组合模式下,共计210条诊断名称出现过282次文本相似度最大值的对象不是自身.结论文本相似度计算方法适用于诊断名称标准化过程,有助于提高数据标准化过程中人工判断的效率.

内容分析

关键词云

关键词热度

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

中国医学临床医学五官科学内科学医疗保健医药卫生总论基础医学外科学大学学报妇产科学与儿科学特种医学皮肤病学与性病学神经病学与精神病学肿瘤学药学预防医学与卫生学

中国病案2022 中国病案2021 中国病案2020 中国病案2019 中国病案2018 中国病案2017 中国病案2016 中国病案2015 中国病案2014 中国病案2013 中国病案2012 中国病案2011 中国病案2010 中国病案2009 中国病案2008 中国病案2007 中国病案2006 中国病案2005 中国病案2004 中国病案2003 中国病案2002 中国病案2001

中国病案2021年第8期中国病案2021年第7期中国病案2021年第6期中国病案2021年第5期中国病案2021年第4期中国病案2021年第3期中国病案2021年第2期中国病案2021年第12期中国病案2021年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com

篇名	文本相似度计算方法在诊断名称数据标准化中的应用
来源期刊	中国病案	学科
关键词	诊断名称数据标准化文本相似度穷举分词
年，卷（期）	2021,（4）	所属期刊栏目	质量管理
研究方向		页码范围	9-12
页数	4页	分类号
字数		语种	中文
DOI	10.3969/j.issn.1672-2566.2021.04.004