原文服务方: 现代电子技术       
摘要:
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统.因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度.通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词.测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果.
推荐文章
基于优化密度的耦合空间LDA文本聚类算法研究
文本聚类
耦合空间模型
LDA主题模型
密度
阈值
基于主题概念聚类的中文文本聚类
中文文本聚类
HowNet
主题概念
Chmeleon算法
基于LDA模型的文本聚类检索
主题模型
文本聚类
潜在狄利克雷分配模型
聚类评价
信息检索
基于优化密度的耦合空间LDA文本聚类算法研究
文本聚类
耦合空间模型
LDA主题模型
密度
阈值
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA的英汉维文本聚类系统的设计与实现
来源期刊 现代电子技术 学科
关键词 文本聚类 LDA模型 多语言 文本特征提取 相似度聚类 权重
年,卷(期) 2019,(3) 所属期刊栏目 测控与自动化技术
研究方向 页码范围 122-126
页数 5页 分类号 TN911-34|TP391
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2019.03.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吐尔根·依布拉音 新疆大学信息科学与工程学院 116 771 14.0 22.0
3 艾山·吾买尔 新疆大学信息科学与工程学院 66 292 10.0 14.0
7 卡哈尔江·阿比的热西提 新疆大学信息科学与工程学院 14 49 5.0 6.0
13 田亮 新疆大学信息科学与工程学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (64)
共引文献  (53)
参考文献  (12)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(6)
  • 参考文献(1)
  • 二级参考文献(5)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(4)
  • 参考文献(1)
  • 二级参考文献(3)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(6)
  • 参考文献(1)
  • 二级参考文献(5)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(7)
  • 参考文献(4)
  • 二级参考文献(3)
2013(11)
  • 参考文献(1)
  • 二级参考文献(10)
2014(7)
  • 参考文献(1)
  • 二级参考文献(6)
2015(5)
  • 参考文献(1)
  • 二级参考文献(4)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本聚类
LDA模型
多语言
文本特征提取
相似度聚类
权重
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导