基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名.
推荐文章
基于类别相关的新文本特征提取方法
正相关
强相关
文本分类
特征降维
特征提取
基于特征相关的偏最小二乘特征选择方法
中医药信息
偏最小二乘法
特征相关
特征选择
基于特征选择的网络入侵检测方法
入侵检测
特征选择
机器学习
基于最大互信息最大相关熵的特征选择方法
模糊粗糙集
信息熵
特征选择
互信息
相关熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于领域相关词汇提取的特征选择方法
来源期刊 小型微型计算机系统 学科 工学
关键词 文本分类 文档表示 特征选择 领域相关
年,卷(期) 2007,(5) 所属期刊栏目 数据挖掘与数据库技术
研究方向 页码范围 895-899
页数 5页 分类号 TP311
字数 4666字 语种 中文
DOI 10.3969/j.issn.1000-1220.2007.05.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 牛军钰 复旦大学计算机科学与工程系 17 124 7.0 10.0
2 孙麟 复旦大学计算机科学与工程系 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (10)
同被引文献  (7)
二级引证文献  (31)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(3)
  • 引证文献(3)
  • 二级引证文献(0)
2010(3)
  • 引证文献(2)
  • 二级引证文献(1)
2011(2)
  • 引证文献(1)
  • 二级引证文献(1)
2012(4)
  • 引证文献(1)
  • 二级引证文献(3)
2013(5)
  • 引证文献(2)
  • 二级引证文献(3)
2014(6)
  • 引证文献(0)
  • 二级引证文献(6)
2015(3)
  • 引证文献(0)
  • 二级引证文献(3)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2017(6)
  • 引证文献(1)
  • 二级引证文献(5)
2018(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
文本分类
文档表示
特征选择
领域相关
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导