原文服务方: 计算机应用研究       
摘要:
针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法.首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本.在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性.
推荐文章
基于类别分布差异和特征熵的维吾尔语文本特征选择
特征选择
文本分类
特征熵
支持向量机
维吾尔语
基于文本分类的维吾尔文数字取证研究
数字取证
文本分类
维吾尔文
互信息
支持向量机
基于χ2统计量的不良文本过滤特征选择方法
特征选择
χ2统计量
双层分类
不良文本过滤
特征项分布
评估指标
文本分类中的特征选择方法
文本分类
特征选择
评估函数
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法
来源期刊 计算机应用研究 学科
关键词 维吾尔文论坛 文本过滤 N-gram统计模型 术语选择 Rocchio分类器
年,卷(期) 2019,(3) 所属期刊栏目 信息安全技术
研究方向 页码范围 925-929
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2017.10.0941
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 阿力木江·艾沙 新疆大学网络中心 28 113 6.0 9.0
2 艾山·吾买尔 新疆大学信息科学与工程学院 66 292 10.0 14.0
3 亚森·艾则孜 新疆警察学院信息安全工程系 31 45 3.0 5.0
4 如先姑力·阿布都热西提 新疆警察学院信息安全工程系 17 30 2.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (75)
共引文献  (24)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(8)
  • 参考文献(0)
  • 二级参考文献(8)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(7)
  • 参考文献(0)
  • 二级参考文献(7)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(8)
  • 参考文献(0)
  • 二级参考文献(8)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(9)
  • 参考文献(1)
  • 二级参考文献(8)
2013(6)
  • 参考文献(2)
  • 二级参考文献(4)
2014(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
维吾尔文论坛
文本过滤
N-gram统计模型
术语选择
Rocchio分类器
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
论文1v1指导