原文服务方: 计算机应用研究       
摘要:
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法.首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算.实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%.通过分析,该算法对敏感词变形体的识别和自动过滤是有效的.
推荐文章
面向中文敏感词变形体的识别方法研究
变形体
敏感词识别
编辑距离
KMP算法
面向中文敏感词变形体的识别方法研究
变形体
敏感词识别
编辑距离
KMP算法
基于文本内容的敏感词决策树信息过滤算法
文本过滤
敏感级别
决策树
分流
词频
决策树算法的研究与应用
数据挖掘
决策树
ID3
钻井
故障诊断模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于决策树的敏感词变形体识别算法研究及应用
来源期刊 计算机应用研究 学科
关键词 敏感词识别 敏感词变形体 决策树 敏感程度计算 多因子模型
年,卷(期) 2020,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1395-1399,1405
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.11.0792
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 余敦辉 湖北大学计算机与信息工程学院 29 152 6.0 11.0
5 张笑笑 湖北大学计算机与信息工程学院 1 0 0.0 0.0
6 付聪 湖北大学计算机与信息工程学院 3 6 2.0 2.0
7 张万山 湖北大学计算机与信息工程学院 10 26 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (51)
共引文献  (36)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(5)
  • 参考文献(1)
  • 二级参考文献(4)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(9)
  • 参考文献(0)
  • 二级参考文献(9)
2013(7)
  • 参考文献(0)
  • 二级参考文献(7)
2014(4)
  • 参考文献(1)
  • 二级参考文献(3)
2015(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(7)
  • 参考文献(4)
  • 二级参考文献(3)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
敏感词识别
敏感词变形体
决策树
敏感程度计算
多因子模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导