基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量.词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题.提出一种新的聚类模型BERT_AE_K-Means,利用预训练模型BERT(bidirectional encoder representations from transformers)作为文本表示的初始化方法,利用自动编码器AutoEncoder对文本表示向量进行自训练以提取高阶特征,将得到的特征提取器Encoder和聚类模型K-Means进行联合训练,同时优化特征提取模块和聚类模块,提高聚类模型的准确度和鲁棒性.所提出的模型在四个数据集上与Word2Vec_K-Means和STC2等6个模型相比,准确率和标准互信息都有所提高,在SearchSnippet数据集上的准确率达到82.28%,实验结果显示,所提方法有效地提高了短文本聚类的准确度.
推荐文章
基于LSTM自动编码机的短文本聚类方法
自然语言处理
短文本
聚类
长短期记忆网络
自动编码机
基于自编码机和聚类的混合推荐算法
混合推荐
协同过滤
自编码机
聚类
平均绝对误差
基于稀疏自编码特征聚类算法的图像窜改检测
稀疏自编码
K-means聚类算法
同图复制
块匹配
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 融合BERT和自编码网络的短文本聚类研究
来源期刊 计算机工程与应用 学科 工学
关键词 短文本聚类 自动编码器 自然语言处理 BERT
年,卷(期) 2022,(2) 所属期刊栏目 模式识别与人工智能|Pattern Recognition and Artificial Intelligence
研究方向 页码范围 145-152
页数 8页 分类号 TP391
字数 语种 中文
DOI 10.3778/j.issn.1002-8331.2102-0223
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
短文本聚类
自动编码器
自然语言处理
BERT
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
论文1v1指导