基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后,利用TF-IDF方法对特征进行加权,并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度,来分类文档并过滤掉不良文档信息。实验结果表明,该方案能够有效过滤不良维吾尔文文档,正确过滤率达到了83.5%。
推荐文章
基于互信息的维吾尔文自适应组词算法
维吾尔文
传统分词
语义词
互信息
组词
基于互信息的推荐系统方法研究
推荐系统
互信息
权重
协同过滤
基于混合互信息算法的文本情感分析
互信息
特征选择
正负相关性
词频信息
情感分析
基于对齐度和互信息的红外与可见光图像配准
图像配准
红外图像
可见光图像
归一化互信息
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案
来源期刊 电子设计工程 学科 工学
关键词 维吾尔文 不良文档过滤 互信息 余弦相似度 TF-IDF
年,卷(期) 2016,(16) 所属期刊栏目 通信与网络
研究方向 页码范围 109-112
页数 4页 分类号 TN918
字数 3045字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵旭东 新疆警察学院信息安全工程系 12 21 3.0 4.0
2 亚森·艾则孜 新疆警察学院信息安全工程系 31 45 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (80)
共引文献  (78)
参考文献  (13)
节点文献
引证文献  (4)
同被引文献  (21)
二级引证文献  (5)
1975(2)
  • 参考文献(0)
  • 二级参考文献(2)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(10)
  • 参考文献(0)
  • 二级参考文献(10)
2009(9)
  • 参考文献(0)
  • 二级参考文献(9)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(9)
  • 参考文献(1)
  • 二级参考文献(8)
2012(14)
  • 参考文献(2)
  • 二级参考文献(12)
2013(7)
  • 参考文献(3)
  • 二级参考文献(4)
2014(4)
  • 参考文献(3)
  • 二级参考文献(1)
2015(4)
  • 参考文献(4)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(5)
  • 引证文献(1)
  • 二级引证文献(4)
研究主题发展历程
节点文献
维吾尔文
不良文档过滤
互信息
余弦相似度
TF-IDF
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子设计工程
半月刊
1674-6236
61-1477/TN
大16开
西安市高新区高新路25号瑞欣大厦10A室
52-142
1994
chi
出版文献量(篇)
14564
总下载数(次)
54
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导