基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.
推荐文章
基于复杂网络的文本关键词提取算法研究
复杂网络
关键词提取
网络社区
基于新的关键词提取方法的快速文本分类系统
计算机应用
中文信息处理
关键词提取
Web文档分类
中文文本同频词统计规律及在关键词提取中的应用
同频词
齐普夫定律
布茨定律
提取
TF-IDF算法
基于语义的文档关键词提取方法
语义距离
密度聚类
关键词提取
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop分布式平台的Web文本关键词提取方案
来源期刊 湘潭大学自然科学学报 学科 工学
关键词 Web文本 关键词提取 Hadoop平台 自然语言处理 分布式
年,卷(期) 2016,(2) 所属期刊栏目 机械工程与电子工程
研究方向 页码范围 79-83
页数 5页 分类号 TP391
字数 3810字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姚卫国 南昌理工学院计算机信息工程系 12 4 1.0 2.0
2 张东波 华南理工大学土木与交通学院 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (167)
参考文献  (8)
节点文献
引证文献  (3)
同被引文献  (14)
二级引证文献  (5)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(7)
  • 参考文献(2)
  • 二级参考文献(5)
2012(4)
  • 参考文献(3)
  • 二级参考文献(1)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
Web文本
关键词提取
Hadoop平台
自然语言处理
分布式
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
湘潭大学自然科学学报
双月刊
1000-5900
43-1066/TN
湖南省湘潭市湘潭大学期刊社
chi
出版文献量(篇)
2407
总下载数(次)
2
论文1v1指导