作者:
原文服务方: 现代电子技术       
摘要:
针对现有以χ2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法.首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别.所改良的特征选择方法能够弥补现有χ2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求.通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果.
推荐文章
文本过滤中的特征选择
特征选择
文本过滤
不平衡数据
维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法
维吾尔文论坛
文本过滤
N-gram统计模型
术语选择
Rocchio分类器
一种不良信息过滤的文本预处理方法研究
信息安全
信息过滤
文本预处理
敏感词识别
基于TFIDF的文本特征选择方法
文本分类
特征选择
术语频率
逆文档频率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于χ2统计量的不良文本过滤特征选择方法
来源期刊 现代电子技术 学科
关键词 特征选择 χ2统计量 双层分类 不良文本过滤 特征项分布 评估指标
年,卷(期) 2019,(21) 所属期刊栏目 测控与自动化技术
研究方向 页码范围 182-186
页数 5页 分类号 TN911.1-34|TP18
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2019.21.039
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 管江红 西藏民族大学信息工程学院 17 41 4.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (68)
共引文献  (52)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(7)
  • 参考文献(1)
  • 二级参考文献(6)
2013(10)
  • 参考文献(1)
  • 二级参考文献(9)
2014(5)
  • 参考文献(0)
  • 二级参考文献(5)
2015(5)
  • 参考文献(0)
  • 二级参考文献(5)
2016(5)
  • 参考文献(1)
  • 二级参考文献(4)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
特征选择
χ2统计量
双层分类
不良文本过滤
特征项分布
评估指标
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导