基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网广告技术的发展和电子邮件的普及,越来越多的垃圾广告邮件充斥生活,而对如何高效区分垃圾邮件的研究也逐渐成为了热门课题.自然语言在结构上具有很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性.对此,首先对邮件文本进行分词,再利用skip-gram模型训练出数据集中每个词的word embedding,引入的词嵌入(word embedding)是为了将邮件文本转化成低维度特征向量;然后将每个词的word embedding组合为二维特征矩阵作为网络的输入,此外在每一次的迭代过程中,输入特征也作为参数进行更新;最后送入提出的CNN-HIGHWAY混合模型中进行邮件分类.将该混合模型在CCERT中文邮件样本集上进行实验,并与传统的机器学习方法和标准的卷积神经网络模型进行对比,结果表明该模型不仅解决了维度过高的问题,而且提高了邮件分类的准确率.
推荐文章
基于Skip-gram模型的社区查询算法
社区查询
局部社区发现
Skip-gram模型
节点相似度
基于连续Skip-gram及深度学习的图像描述方法
深度学习
图像描述生成
Skip-gram
词向量
基于Skip-gram模型的微博情感倾向性分析
微博
情感分析
Skip-gram模型
词向量
微博向量
一种基于N-gram组合的中文垃圾邮件过滤方法
反垃圾邮件
中文邮件
贝叶斯模型
N-gram
代价敏感
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Skip-gram的CNNs文本邮件分类模型
来源期刊 计算机技术与发展 学科 工学
关键词 自然语言处理 词嵌入 邮件分类 卷积神经网络 深度学习
年,卷(期) 2019,(6) 所属期刊栏目 应用开发研究
研究方向 页码范围 143-147
页数 5页 分类号 TP391
字数 4570字 语种 中文
DOI 10.3969/j.issn.1673-629X.2019.06.030
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 荆晓远 南京邮电大学自动化学院 52 99 5.0 6.0
2 吴飞 南京邮电大学自动化学院 33 90 5.0 7.0
3 董西伟 南京邮电大学自动化学院 16 38 3.0 4.0
4 黄鹤 南京邮电大学计算机学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (71)
参考文献  (6)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
自然语言处理
词嵌入
邮件分类
卷积神经网络
深度学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导