原文服务方: 微电子学与计算机       
摘要:
中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法.对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据.实验表明:这种方法代价较小,而正确率较高.最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求.
推荐文章
基于事例推理的中文垃圾邮件过滤
垃圾邮件过滤
实例推理
预计算实例检索网络
基于模糊支持向量机的中文垃圾邮件过滤方法
垃圾邮件
支持向量机
模糊支持向量机
模糊隶属度
隶属度函数
一种新型的基于URL过滤的反垃圾邮件技术
网络安全
垃圾邮件过滤
URL过滤的垃圾邮件过滤技术
统一资源定位符库
一种复合的双引擎智能垃圾邮件过滤方法
垃圾邮件
正常邮件
黑白名单
规则
贝叶斯过滤算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于N-gram组合的中文垃圾邮件过滤方法
来源期刊 微电子学与计算机 学科
关键词 反垃圾邮件 中文邮件 贝叶斯模型 N-gram 代价敏感
年,卷(期) 2004,(12) 所属期刊栏目
研究方向 页码范围 85-91
页数 7页 分类号 TOP393.098
字数 语种 中文
DOI 10.3969/j.issn.1000-7180.2004.12.024
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李俊 中国科学院计算机网络信息中心 242 2653 26.0 41.0
2 刘新斌 中国科学院计算机网络信息中心 1 15 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (81)
参考文献  (3)
节点文献
引证文献  (15)
同被引文献  (15)
二级引证文献  (35)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(6)
  • 引证文献(6)
  • 二级引证文献(0)
2007(2)
  • 引证文献(0)
  • 二级引证文献(2)
2008(7)
  • 引证文献(3)
  • 二级引证文献(4)
2009(2)
  • 引证文献(0)
  • 二级引证文献(2)
2010(4)
  • 引证文献(2)
  • 二级引证文献(2)
2012(3)
  • 引证文献(1)
  • 二级引证文献(2)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(0)
  • 二级引证文献(1)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(4)
  • 引证文献(1)
  • 二级引证文献(3)
2018(13)
  • 引证文献(0)
  • 二级引证文献(13)
2019(5)
  • 引证文献(1)
  • 二级引证文献(4)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
反垃圾邮件
中文邮件
贝叶斯模型
N-gram
代价敏感
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
微电子学与计算机
月刊
1000-7180
61-1123/TN
大16开
1972-01-01
chi
出版文献量(篇)
9826
总下载数(次)
0
总被引数(次)
59060
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导