基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在文本分类任务中,由于短文本具有特征稀疏,用词不规范等特点,传统的自然语言处理方法在短文本分类中具有局限性.针对短文本的特点,本文提出一种基于BERT(bidirectional encoder representations from Transformers)与GSDMM(collapsed Gibbs sampling algorithm for the Dirichlet multinomial mixture model)融合和聚类指导的短文本分类算法,用以提高短文本分类有效性与准确性.本算法一方面通过BERT与GSDMM融合模型将短文本转化为集成语义向量,集成的向量体现了全局语义特征与主题特征,解决了短文本特征稀疏与主题信息匮乏的问题.另一方面在分类器前端训练中通过引入聚类指导算法实现对标注数据的扩展,同时也提升了结果的可解释性.最后利用扩展后的标注数据集训练分类器完成对短文本的自动化分类.将电商平台的差评数据作为验证数据集,在多组对比实验中验证了本算法在短文本分类方面应用的有效性与优势.
推荐文章
基于BERT-AWC的文本分类方法研究
文本分类
注意力机制
卷积神经网络
混合注意力机制
CNN-ELM混合短文本分类模型
文本分类
卷积神经网络
极速学习机
融合LSI和支持向量聚类的网页文本分类算法
特征提取
潜在语义索引
网页文本
语义聚类
支持向量聚类
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 BERT与GSDMM融合的聚类短文本分类
来源期刊 计算机系统应用 学科
关键词 GSDMM BERT SVM 短文本分类 聚类指导 语义向量
年,卷(期) 2022,(2) 所属期刊栏目 软件技术 · 算法|Software Technique · Algorithm
研究方向 页码范围 267-272
页数 6页 分类号
字数 语种 中文
DOI 10.15888/j.cnki.csa.008307
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
GSDMM
BERT
SVM
短文本分类
聚类指导
语义向量
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导