作者:
原文服务方: 成都大学学报(自然科学版)       
摘要:
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.
推荐文章
基于开放域抽取的多文档概念图构建研究
开放域抽取
多文档
概念图构建
基于主题概念抽取的多文档文摘方法
多文档文摘
概念树
概念抽取
一种基于主题相关度的网页排序算法
网页排序
主题相关度
链接分析
向量空间模型
基于主题特征的关键词抽取
关键词抽取
主题特征
主题模型
装袋决策树
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词语相关度的文档主题抽取算法
来源期刊 成都大学学报(自然科学版) 学科
关键词 词语相关度 出现频率 知网 主题抽取
年,卷(期) 2012,(4) 所属期刊栏目
研究方向 页码范围 367-369
页数 3页 分类号 TP391.1
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 袁晓峰 盐城师范学院信息科学与技术学院 12 39 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (98)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1958(2)
  • 参考文献(0)
  • 二级参考文献(2)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(1)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词语相关度
出现频率
知网
主题抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
成都大学学报(自然科学版)
季刊
1004-5422
51-1216/N
16开
1982-01-01
chi
出版文献量(篇)
1947
总下载数(次)
0
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导