基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本表示作为文本分类的一个基本问题,一直广受关注.目前文本表示主要有词袋模型、隐式语义表达和基于知识库的显式语义表达3种方式.本文首先分析对比了这3种文本表示方式在文本分类中的效果.实验发现,基于知识库的显式语义表达并没有如预期一样提高文本分类的效果.经分析,其原因在于显式语义表达在扩展文档表达时易引入噪声.针对该问题,本文提出了一种有监督的显式语义表达方法.该方法利用数据集的标注信息识别文档中与分类最相关的核心概念,并扩展核心概念以形成文档显式语义表达.3个标准分类数据集上的结果证实了本文所提文本表示方法的有效性.
推荐文章
面向文本分类的中文文本语义表示方法
分类
知识表示
相似度
文本语义图
基于语义依存分析的图网络文本分类模型
语义依存分析
词嵌入
语义图网络块
文本分类
一种基于语义标注特征的金融文本分类方法
文本分类
金融文本
语义标注
词汇—语义模式
有限状态机
基于类别特征向量表示的中文文本分类算法
中文文本分类
向量空间模型
评价函数
特征提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向文本分类的有监督显式语义表示
来源期刊 数据采集与处理 学科 工学
关键词 文本分类 文本表达 有监督显式语义表示
年,卷(期) 2017,(3) 所属期刊栏目
研究方向 页码范围 550-558
页数 9页 分类号 TP391
字数 7619字 语种 中文
DOI 10.16337/j.1004-9037.2017.03.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学旗 中国科学院计算所网络数据科学与技术重点实验室 160 4858 31.0 67.0
2 孙飞 中国科学院计算所网络数据科学与技术重点实验室 20 85 3.0 9.0
3 兰艳艳 中国科学院计算所网络数据科学与技术重点实验室 13 66 5.0 8.0
4 郭嘉丰 中国科学院计算所网络数据科学与技术重点实验室 22 942 9.0 22.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (8)
节点文献
引证文献  (2)
同被引文献  (5)
二级引证文献  (1)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1988(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
文本分类
文本表达
有监督显式语义表示
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据采集与处理
双月刊
1004-9037
32-1367/TN
大16开
南京市御道街29号1016信箱
28-235
1986
chi
出版文献量(篇)
3235
总下载数(次)
7
总被引数(次)
25271
论文1v1指导