基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
机构知识库是一个以机构成员在工作过程中所创建的各种数字化产品为内容,以网络为依托,以收集、整理、保存、检索、提供利用为目的的知识库,其中文本数据集多呈现结构化,且具有离散性.而个性化推荐技术可以有效提高机构知识库资源的曝光率和利用率,将现有的"用户主导行为"模式转变为"以知识驱动行为"模式,使得机构知识库用户能够更高效地获取学术信息.为此,文章在研究国内外已有的相似性度量方法的基础上,引入不同权重词语对整体相似度有不同影响的思想,提出一种基于TF-IDF和词语匹配的文本相似度评价算法.通过分析DC(Dublin Core)元数据格式,筛选其中有效数据,计算特定词语在指定域中的权重并统计匹配次数,在文本长度归一化的基础上进行文本相似度计算.实验以手动建立文本测试集进行相似度计算,经统计分析,表明该算法能够对结构化离散文本数据的相似度进行合理计算,降低了机构知识库离散数据集在进行相似度计算时的向量维度,计算结果与实际数据吻合较好,具有可行性和实际应用价值.
推荐文章
一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法
文本相似度
非结构化数据
投诉数据分类系统
基于《知网》的文本相似度研究
知网
语义相似度
VSM
文本相似度
基于全文检索的文本相似度算法应用研究
文本相似度
余弦 VSM
Simhash
面向观点挖掘的汽车评价本体知识库的构建
本体知识库
观点挖掘
概念获取
汽车评论
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向机构知识库结构化数据的文本相似度评价算法
来源期刊 信息网络安全 学科 工学
关键词 机构知识库 离散化数据 结构化数据 词语匹配 TF-IDF 文本相似度
年,卷(期) 2015,(5) 所属期刊栏目 技术研究
研究方向 页码范围 16-20
页数 5页 分类号 TP309
字数 4679字 语种 中文
DOI 10.3969/j.issn.1671-1122.2015.05.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郭芳毓 北京邮电大学计算机学院 1 12 1.0 1.0
5 许晋 北京邮电大学计算机学院 3 28 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (23)
共引文献  (76)
参考文献  (13)
节点文献
引证文献  (12)
同被引文献  (47)
二级引证文献  (50)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(2)
  • 二级参考文献(2)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(8)
  • 参考文献(2)
  • 二级参考文献(6)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2014(4)
  • 参考文献(4)
  • 二级参考文献(0)
2015(6)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(5)
  • 二级引证文献(1)
2015(6)
  • 引证文献(5)
  • 二级引证文献(1)
2016(7)
  • 引证文献(2)
  • 二级引证文献(5)
2017(22)
  • 引证文献(4)
  • 二级引证文献(18)
2018(9)
  • 引证文献(0)
  • 二级引证文献(9)
2019(15)
  • 引证文献(0)
  • 二级引证文献(15)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
机构知识库
离散化数据
结构化数据
词语匹配
TF-IDF
文本相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息网络安全
月刊
1671-1122
31-1859/TN
大16开
上海岳阳路76号4号楼211室
4-688
2001
chi
出版文献量(篇)
7165
总下载数(次)
26
总被引数(次)
26089
论文1v1指导