基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.
推荐文章
一种能发现自然聚类的聚类算法
数据挖掘
聚类
神经网络
网格
动态模型
一种基于主题的Web文本聚类算法
HTBC算法
Web文本聚类
主题
搜索引擎
互信息
一种改进的 DBscan聚类算法
DBscan
核心点
二次聚类
轮廓系数
一种快速空间聚类算法
聚类
空间聚类
单维距离
空间密度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种新颖的词聚类算法
来源期刊 四川大学学报(自然科学版) 学科 文学
关键词 词相似度 词聚类 统计语言模型
年,卷(期) 2004,(z1) 所属期刊栏目
研究方向 页码范围 522-525
页数 4页 分类号 H1
字数 2147字 语种 中文
DOI 10.3969/j.issn.0490-6756.2004.z1.122
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钟义信 北京邮电大学信息工程学院 128 2678 27.0 48.0
2 袁里驰 北京邮电大学信息工程学院 4 29 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词相似度
词聚类
统计语言模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
四川大学学报(自然科学版)
双月刊
0490-6756
51-1595/N
大16开
成都市九眼桥望江路29号
62-127
1955
chi
出版文献量(篇)
5772
总下载数(次)
10
总被引数(次)
25503
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导