基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出一种新颖的中文文本分类框架.在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(segmentation term frequency-document frequency,STF-DF)筛选出类别区分能力强的关键词,同时构建一种适合于中文文本分类的卷积神经网络(convolution neural network,CNN)进行分类.实验结果表明,采用该框架使THUCNews和复旦大学中文文本数据集中的准确率分别达到了94.51%和95.04%,同时在真实的有害信息数据集中取得了99.70%的召回率,这验证了所提出框架的有效性和实用价值.
推荐文章
中文文本同频词统计规律及在关键词提取中的应用
同频词
齐普夫定律
布茨定律
提取
TF-IDF算法
基于关键词相似度的短文本分类方法研究
词向量
特征选择
短文本分类
特征权重
中文文本分类研究
文本分类
k 近邻
支持向量机
最大熵
中文时间关键词识别研究
时间关键词
时间关键词识别
谱聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于关键词策略和CNN的中文文本有害信息分类
来源期刊 集美大学学报(自然科学版) 学科 工学
关键词 词向量 分词频文档频率 特征词集合 Word2Vec模型 卷积神经网络
年,卷(期) 2020,(5) 所属期刊栏目 数理科学与信息工程
研究方向 页码范围 392-400
页数 9页 分类号 TP312
字数 语种 中文
DOI 10.19715/j.jmuzr.2020.05.12
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张宏怡 11 23 3.0 4.0
2 陈德意 1 0 0.0 0.0
3 刘彩玲 1 0 0.0 0.0
4 张光斌 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (65)
共引文献  (45)
参考文献  (11)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1943(1)
  • 参考文献(0)
  • 二级参考文献(1)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(7)
  • 参考文献(0)
  • 二级参考文献(7)
2016(12)
  • 参考文献(1)
  • 二级参考文献(11)
2017(10)
  • 参考文献(1)
  • 二级参考文献(9)
2018(9)
  • 参考文献(5)
  • 二级参考文献(4)
2019(4)
  • 参考文献(4)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词向量
分词频文档频率
特征词集合
Word2Vec模型
卷积神经网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
集美大学学报(自然科学版)
双月刊
1007-7405
35-1186/N
大16开
福建厦门集美银江路185号
1996
chi
出版文献量(篇)
1788
总下载数(次)
5
总被引数(次)
8910
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导