基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据.文本聚类技术对于从海量短文中自动获取知识具有重要意义.现有的一般文本挖掘方法很难处理TB级的海量数据.由于短文本中的关键词出现次数少,文本挖掘的精度很难保证.该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题.实验表明,该方法在处理海量短语信息时具有很好的性能和准确度.
推荐文章
基于文本信息的聚类方法研究
文本聚类
数据挖掘
粒子群算法
信息检索
自然语言处理
海量中文短信文本最佳聚类数研究
聚类
簇数
增量
划分
文本聚类中的降维技术研究
文本聚类
文本表示
向量空间模型
分词
降维
hash变换
概念空间
基于Chameleon算法的文本聚类技术研究
文本聚类
Chameleon
文本向量
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 海量短语信息文本聚类技术研究
来源期刊 计算机工程 学科 工学
关键词 文本挖掘 海量 短语 并行
年,卷(期) 2007,(14) 所属期刊栏目 软件技术与数据库
研究方向 页码范围 38-40
页数 3页 分类号 TP18
字数 3525字 语种 中文
DOI 10.3969/j.issn.1000-3428.2007.14.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 贾焰 国防科技大学计算机学院网络研究所 118 926 16.0 24.0
2 杨树强 国防科技大学计算机学院网络研究所 35 441 12.0 19.0
3 王永恒 国防科技大学计算机学院网络研究所 6 107 5.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (45)
同被引文献  (50)
二级引证文献  (171)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2008(5)
  • 引证文献(2)
  • 二级引证文献(3)
2009(9)
  • 引证文献(4)
  • 二级引证文献(5)
2010(17)
  • 引证文献(5)
  • 二级引证文献(12)
2011(16)
  • 引证文献(7)
  • 二级引证文献(9)
2012(10)
  • 引证文献(1)
  • 二级引证文献(9)
2013(12)
  • 引证文献(5)
  • 二级引证文献(7)
2014(23)
  • 引证文献(10)
  • 二级引证文献(13)
2015(20)
  • 引证文献(2)
  • 二级引证文献(18)
2016(22)
  • 引证文献(1)
  • 二级引证文献(21)
2017(33)
  • 引证文献(5)
  • 二级引证文献(28)
2018(19)
  • 引证文献(2)
  • 二级引证文献(17)
2019(23)
  • 引证文献(1)
  • 二级引证文献(22)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
文本挖掘
海量
短语
并行
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导