基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目的 选用文本相似度的计算方法和思路进行辅助,以期提高诊断名称数据标准化过程中人工判断的效率.方法 以《疾病分类与代码国家临床版2.0》为例,利用余弦相似度计算文本相似度,用单字与单字组合的穷举分词和频数、逆文本频率指数加权的算法生成文本向量,使用Microsoft Office Excel 2016的函数完成对计算结果的校验.结果 诊断名称数据中单字至9字组的数目中,在3字组之后,字组不再几何级数增长,5字组之后出现下降.通过计算频数和频数乘以逆文本频率指数两种方式构建的文本向量文本相似度得出Ⅰ至Ⅸ字组组合模式下两种文本向量的相似度最大值的结果.在9种字组组合模式下,共计210条诊断名称出现过282次文本相似度最大值的对象不是自身.结论 文本相似度计算方法适用于诊断名称标准化过程,有助于提高数据标准化过程中人工判断的效率.
推荐文章
属性论在文本相似度计算中的应用
相似度
属性论
属性重心剖分模型
一种PST_LDA中文文本相似度计算方法
词性标注
LDA模型
PST_LDA模型
文本相似度计算
基于词汇语义信息的文本相似度计算
文本相似度
词向量
词频—逆文档频率
一种基于熵的文本相似性计算方法
文本相似性
字符串匹配
编辑距离算法
最长公共子序列
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 文本相似度计算方法在诊断名称数据标准化中的应用
来源期刊 中国病案 学科
关键词 诊断名称 数据标准化 文本相似度 穷举分词
年,卷(期) 2021,(4) 所属期刊栏目 质量管理
研究方向 页码范围 9-12
页数 4页 分类号
字数 语种 中文
DOI 10.3969/j.issn.1672-2566.2021.04.004
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
诊断名称
数据标准化
文本相似度
穷举分词
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中国病案
月刊
1672-2566
11-4998/R
大16开
北京市朝阳区白家庄路8号首都医科大学附属北京朝阳医院
80-109
2000
chi
出版文献量(篇)
8908
总下载数(次)
6
总被引数(次)
39280
论文1v1指导