基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于相似性进行文本分类是当前流行的文本处理方法.基于特征隶属度的文本分类相似性度量方法旨在利用特征与文档间的隶属关系度量文档相似性,从而实现文本分类.该方法基于特征与文档的隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并基于3种隶属词集定义隶属度函数.全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零.在度量相似性时,偏隶属关系高于全隶属关系.由于同类文档词集相近,异类文档词集差异明显,因此,基于特征与文档的隶属度进行相似性度量,可清晰界定词集与类别的隶属关系,提升分类精度.最后,采用数据集20-New-groups和Reuters-21578对分类有效性进行验证,结果表明基于特征隶属度的相似性度量方法的性能优于目前流行的相似性度量方法.
推荐文章
基于隶属度限幅特征VSM的文本分类模型
模糊函数
隶属度限幅
类期望向量
文本分类
基于关键词相似度的短文本分类方法研究
词向量
特征选择
短文本分类
特征权重
采用类别相似度聚合的关联文本分类方法
文本分类
关联规则
类别相似度
聚合
基于文本分类技术计算中医方剂相似度
中医方剂
文本分类
相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于特征隶属度的文本分类相似性度量方法
来源期刊 计算机科学 学科 工学
关键词 数据挖掘 文本分类 相似性度量 隶属度
年,卷(期) 2017,(11) 所属期刊栏目 人工智能
研究方向 页码范围 289-296
页数 8页 分类号 TP391
字数 6952字 语种 中文
DOI 10.11896/j.issn.1002-137X.2017.11.044
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵书良 河北师范大学数学与信息科学学院 39 312 10.0 16.0
2 池云仙 河北师范大学资源与环境科学学院 6 33 3.0 5.0
6 罗燕 河北师范大学数学与信息科学学院 4 36 3.0 4.0
7 高琳 河北师范大学数学与信息科学学院 3 30 3.0 3.0
8 赵骏鹏 河北师范大学数学与信息科学学院 3 30 3.0 3.0
9 李超 河北师范大学数学与信息科学学院 12 56 5.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (26)
共引文献  (76)
参考文献  (17)
节点文献
引证文献  (5)
同被引文献  (17)
二级引证文献  (3)
1936(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(10)
  • 参考文献(2)
  • 二级参考文献(8)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(4)
  • 参考文献(4)
  • 二级参考文献(0)
2016(8)
  • 参考文献(8)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
数据挖掘
文本分类
相似性度量
隶属度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
论文1v1指导