基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能.文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重.实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70.56%,比传统模型高出4.70%.该模型通过使用适当的权重因子可以更好改善分类器的训练效果.
推荐文章
基于发现特征子空间模型的文本分类算法
发现特征子空间
文本分类
模式
基于隶属度限幅特征VSM的文本分类模型
模糊函数
隶属度限幅
类期望向量
文本分类
基于语义依存分析的图网络文本分类模型
语义依存分析
词嵌入
语义图网络块
文本分类
基于灰关系与信息增益融合的文本分类模型
信息增益
灰色理论
χ2统计
位置加权
文本分类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Bootstrapping的文本分类模型
来源期刊 中文信息学报 学科 工学
关键词 计算机应用 中文信息处理 文本分类 最大熵模型 权重因子
年,卷(期) 2005,(2) 所属期刊栏目
研究方向 页码范围 86-92
页数 7页 分类号 TP391
字数 4418字 语种 中文
DOI 10.3969/j.issn.1003-0077.2005.02.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姚天顺 东北大学自然语言处理实验室 61 1723 24.0 40.0
2 朱靖波 东北大学自然语言处理实验室 44 806 17.0 28.0
3 陈文亮 东北大学自然语言处理实验室 10 210 7.0 10.0
4 朱慕华 东北大学自然语言处理实验室 5 117 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (23)
同被引文献  (18)
二级引证文献  (27)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(1)
  • 引证文献(1)
  • 二级引证文献(0)
2007(4)
  • 引证文献(4)
  • 二级引证文献(0)
2008(3)
  • 引证文献(1)
  • 二级引证文献(2)
2009(10)
  • 引证文献(4)
  • 二级引证文献(6)
2010(4)
  • 引证文献(1)
  • 二级引证文献(3)
2011(3)
  • 引证文献(1)
  • 二级引证文献(2)
2012(2)
  • 引证文献(1)
  • 二级引证文献(1)
2013(3)
  • 引证文献(2)
  • 二级引证文献(1)
2014(5)
  • 引证文献(3)
  • 二级引证文献(2)
2015(4)
  • 引证文献(1)
  • 二级引证文献(3)
2016(3)
  • 引证文献(2)
  • 二级引证文献(1)
2017(3)
  • 引证文献(1)
  • 二级引证文献(2)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
计算机应用
中文信息处理
文本分类
最大熵模型
权重因子
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导