作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着网络的发展,互联网已经成为了最重要的新闻媒介.网络上的新闻报道能广泛传播,对社会有着深刻的影响.因此互联网新闻事件的监督和挖掘分析,对政府,企业有着巨大的价值.在进行新闻报道分析的时候,最为重要的任务之一就是把网络上类别杂乱,来源广泛的新闻进行识别和归类.新闻归类主要是基于通用的聚类的方法,其中一项基本的技术就是新闻报道相似度计算.根据需求不同,新闻聚类类别可以是一个事件,或者是一领域.本文针对事件的新闻报道聚类,提出了一种混合特征的相似度计算方法.采用了Tf-Idf和n-gram结合的向量空间模型来得到文本相似度,再通过规则识别出新闻文本中的时间,地点等关键信息,进行关键信息匹配度计算,最后再把两个相似度结合作为最终匹配度.实验表明,混合特征的方法明显提高了事件聚类的准召率.
推荐文章
多通道多模式融合LBP特征的纹理相似度计算
纹理相似度
局部二元模式
多通道
相似度测度
特征融合
基于多特征融合的句子相似度计算方法
句子相似度
表面特征
语义特征
层次分析法
一种综合事件本体相似度计算方法
本体
事件本体
概念相似度
语义
相似度计算
事件本体相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 多特征融合的新闻聚类相似度计算方法
来源期刊 软件 学科 工学
关键词 计算机应用技术 话题发现 聚类 文本相似度
年,卷(期) 2017,(12) 所属期刊栏目 设计研究与应用
研究方向 页码范围 170-174,189
页数 6页 分类号 TP391.3
字数 6194字 语种 中文
DOI 10.3969/j.issn.1003-6970.2017.12.032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李俊峰 北京邮电大学网络技术研究院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (43)
共引文献  (1189)
参考文献  (7)
节点文献
引证文献  (2)
同被引文献  (9)
二级引证文献  (6)
1967(1)
  • 参考文献(1)
  • 二级参考文献(0)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1980(1)
  • 参考文献(1)
  • 二级参考文献(0)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(6)
  • 参考文献(1)
  • 二级参考文献(5)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(7)
  • 引证文献(1)
  • 二级引证文献(6)
研究主题发展历程
节点文献
计算机应用技术
话题发现
聚类
文本相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
论文1v1指导