基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合。首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语义扩展,计算短文本间最大匹配距离,将其作为衡量短文本间形式距离的指标;其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离;最后,利用加权的方法将形式距离和单元语义距离综合为文本距离,并将其应用于网络在线评论的聚类分析。特别地,为了缓解短文本长度差异所造成的计算误差,提出利用词表长度对距离进行惩罚,并根据Zipf’s Law和Heap’s Law的对应关系,给出了一种文本词表长度的估计方法,并阐明了文本Zipf指数α对长度惩罚的关键性作用机制。实验结果表明,改进算法优于传统方法,聚类性能显著提升。
推荐文章
基于朋友聚类的语义覆盖网构建方法研究
P2P
元数据模型
聚类
朋友聚类
基于潜在语义分析的构件聚类研究
构件
刻面分类描述
潜在语义分析
向量空间模型
k-均值聚类
基于改进SimRank的产品特征聚类研究
SimRank算法
特征聚类
二分网
特征相似度
基于2d-距离改进的K-means聚类算法研究
2d-距离
K-means算法
初始点选取
孤立点
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进语义距离的网络评论聚类研究?
来源期刊 软件学报 学科 工学
关键词 文本聚类 在线评论 语义距离 长度惩罚 Heap’s Law Zipf’s Law
年,卷(期) 2014,(12) 所属期刊栏目
研究方向 页码范围 2777-2789
页数 13页 分类号 TP181
字数 11932字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赖英旭 北京工业大学计算机学院 54 244 9.0 14.0
2 杨震 北京工业大学计算机学院 30 173 8.0 12.0
3 王来涛 北京工业大学计算机学院 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (35)
共引文献  (226)
参考文献  (19)
节点文献
引证文献  (14)
同被引文献  (29)
二级引证文献  (12)
1964(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(2)
  • 二级参考文献(1)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(4)
  • 参考文献(1)
  • 二级参考文献(3)
2003(6)
  • 参考文献(2)
  • 二级参考文献(4)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(5)
  • 参考文献(3)
  • 二级参考文献(2)
2008(5)
  • 参考文献(1)
  • 二级参考文献(4)
2009(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(4)
  • 参考文献(3)
  • 二级参考文献(1)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(8)
  • 引证文献(7)
  • 二级引证文献(1)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(5)
  • 引证文献(2)
  • 二级引证文献(3)
2019(8)
  • 引证文献(2)
  • 二级引证文献(6)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本聚类
在线评论
语义距离
长度惩罚
Heap’s Law
Zipf’s Law
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
国家软科学研究计划
英文译名:
官方网址:http://softscience.cssm.com.cn/
项目类型:
学科类型:
论文1v1指导