原文服务方: 西安交通大学学报       
摘要:
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.
推荐文章
基于文本片断的多模部分匹配算法
信息安全
多模匹配
部分匹配
网络内容检查
网络信息审计系统中的实时网页分类方法
网络信息审计
网页分类
证据理论
基于改进模糊语法增量式算法的文本分类方法
文本分类
机器学习
增量式
模糊语法
重新训练
面向审计领域的短文本分类技术研究
审计问题分类
审计领域
信息增益
SVM决策树
短文本分类
审计报告
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 网络信息审计系统中的文本片断模糊分类算法
来源期刊 西安交通大学学报 学科
关键词 文本片段分类 信息审计 K-最近邻 模糊分类
年,卷(期) 2005,(8) 所属期刊栏目
研究方向 页码范围 800-803
页数 4页 分类号 TP393
字数 语种 中文
DOI 10.3321/j.issn:0253-987X.2005.08.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张德运 西安交通大学电子与信息工程学院 184 2190 23.0 37.0
2 李金库 西安交通大学电子与信息工程学院 22 230 6.0 15.0
3 孙钦东 西安交通大学电子与信息工程学院 21 457 12.0 21.0
4 高鹏 西安交通大学电子与信息工程学院 12 220 7.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (117)
参考文献  (4)
节点文献
引证文献  (4)
同被引文献  (16)
二级引证文献  (32)
1967(1)
  • 参考文献(1)
  • 二级参考文献(0)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(1)
  • 引证文献(1)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(7)
  • 引证文献(0)
  • 二级引证文献(7)
2011(7)
  • 引证文献(2)
  • 二级引证文献(5)
2012(3)
  • 引证文献(0)
  • 二级引证文献(3)
2013(3)
  • 引证文献(0)
  • 二级引证文献(3)
2014(3)
  • 引证文献(0)
  • 二级引证文献(3)
2015(2)
  • 引证文献(0)
  • 二级引证文献(2)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
文本片段分类
信息审计
K-最近邻
模糊分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
总被引数(次)
81310
相关基金
国家高技术研究发展计划(863计划)
英文译名:The National High Technology Research and Development Program of China
官方网址:http://www.863.org.cn
项目类型:重点项目
学科类型:信息技术
论文1v1指导