基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建.为此,提出了一种集成算法——新词发现?双向长短期记忆网络?梯度提升算法.首先针对微博文本的非正式性,提出了一种基于支持度视角的新词发现(New Word Discovery,NWD)算法,发掘其中大量存在的网络用语以实现更加准确的分词及语义把握;其次,引入Simhash算法使得微博文本中的"信息过载"现象得到改观;再次,为改善微博文本的简洁性而引起的特征稀疏问题,采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征;最后,通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型,从而有效构建多粒度微博用户兴趣画像.实验结果表明,粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score,mF1)和受试者工作特征曲线下面积(Area Under ROC Crave,AUC)分别高达83.6%,79.7%和70.4%,63.6%,相对于基准模型,NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%,其促进作用优于现有的新词发现方法.
推荐文章
多策略中文微博细粒度情绪分析研究
细粒度情绪分析
中文微博
朴素贝叶斯
SVM
KNN
基于多标签语义关联关系的微博用户兴趣建模方法
多标签
标签关联关系
标签语义特征
用户兴趣模型
基于微博短文本的用户兴趣建模方法
微博
短文本重构
概念映射
短文本聚类
用户兴趣模型
基于词项关联关系与归一化割加权的微博用户兴趣模型
词关联关系矩阵
归一化割
非负矩阵分解
微博用户兴趣模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于NWD集成算法的多粒度微博用户 兴趣画像构建
来源期刊 广东工业大学学报 学科 工学
关键词 新词发现 双向长短期记忆网络 XGBoost梯度提升 多粒度 微博用户兴趣画像
年,卷(期) 2020,(4) 所属期刊栏目
研究方向 页码范围 42-50
页数 9页 分类号 TP391
字数 8979字 语种 中文
DOI 10.12052/gdutxb.190129
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘洪伟 广东工业大学管理学院 51 250 9.0 14.0
2 莫赞 广东工业大学管理学院 58 329 10.0 15.0
3 柳建华 广东工业大学管理学院 3 0 0.0 0.0
4 张舒 广东工业大学管理学院 2 0 0.0 0.0
5 杨培琛 广东工业大学管理学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (128)
共引文献  (65)
参考文献  (17)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(3)
  • 参考文献(2)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(11)
  • 参考文献(0)
  • 二级参考文献(11)
2011(11)
  • 参考文献(0)
  • 二级参考文献(11)
2012(12)
  • 参考文献(0)
  • 二级参考文献(12)
2013(16)
  • 参考文献(0)
  • 二级参考文献(16)
2014(17)
  • 参考文献(1)
  • 二级参考文献(16)
2015(12)
  • 参考文献(1)
  • 二级参考文献(11)
2016(11)
  • 参考文献(3)
  • 二级参考文献(8)
2017(6)
  • 参考文献(2)
  • 二级参考文献(4)
2018(5)
  • 参考文献(5)
  • 二级参考文献(0)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
新词发现
双向长短期记忆网络
XGBoost梯度提升
多粒度
微博用户兴趣画像
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
广东工业大学学报
双月刊
1007-7162
44-1428/T
16开
广东省广州市东风东路729号
1974
chi
出版文献量(篇)
2262
总下载数(次)
2
总被引数(次)
11966
论文1v1指导