原文服务方: 计算机应用研究       
摘要:
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clustering based on ontology and similarity).研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径.
推荐文章
一种基于本体的文本聚类方法
本体
WordNet
关键概念集
概念特征向量
文本聚类中基于本体的相似性测度
相似性测度
文本聚类
本体
信息检索系统
一种基于语义相似度的文本聚类算法
文本聚类
语义相似度
文本表示
语义相似度的文本聚类算法
基于改进相似度与类中心向量的半监督短文本聚类算法
强类别区分度
相似度
类中心向量
半监督聚类
短文本
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于本体及相似度的文本聚类研究
来源期刊 计算机应用研究 学科
关键词 本体 相似度 文本聚类 语义
年,卷(期) 2010,(7) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2494-2497
页数 分类号 TP311
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2010.07.026
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邱玉辉 西南大学语义网格实验室 82 1462 16.0 36.0
2 王刚 安康学院电子与信息工程系 36 312 11.0 17.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (74)
参考文献  (3)
节点文献
引证文献  (19)
同被引文献  (29)
二级引证文献  (20)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(4)
  • 引证文献(2)
  • 二级引证文献(2)
2013(6)
  • 引证文献(4)
  • 二级引证文献(2)
2014(7)
  • 引证文献(4)
  • 二级引证文献(3)
2015(5)
  • 引证文献(1)
  • 二级引证文献(4)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(3)
  • 引证文献(0)
  • 二级引证文献(3)
2019(5)
  • 引证文献(2)
  • 二级引证文献(3)
研究主题发展历程
节点文献
本体
相似度
文本聚类
语义
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导