基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统的手工整理主题词表的方法因耗时、更新速度慢而无法满足应用要求的问题,提出了一种基于维基百科(Wikipedia)和条件随机场(CRF)的领域主题词抽取方法.该方法根据特定领域现有主题词的构词特点、统计分布特点,充分利用维基百科独特的结构优势,自动地从维基百科中获取新的领域主题词,补充现有主题词表.该方法采用条件随机场作为训练、测试的模型,将多方面的特征进行综合建模,取得了较好的实验效果.实验结果表明,使用该方法可以将主题词识别的F值提高到83%左右.
推荐文章
基于维基百科的领域实体发现研究
领域实体
维基百科
隶属度
自动发现
基于维基百科和网页相似度分析的主题爬行策略
维基百科
文本相关性
链接分析
相似度计算
基于维基百科的领域概念语义知识库的自动构建方法
维基百科
语义知识库
关键词抽取
语义相似度计算
随机游走
基于维基百科的语义知识库及其构建方法研究
维基百科
语义挖掘
知识库
文本挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于维基百科和条件随机场的领域主题词抽取方法
来源期刊 高技术通讯 学科
关键词 主题词表构建 主题词抽取 维基百科(Wikipedia) 条件随机场(CRF)
年,卷(期) 2014,(6) 所属期刊栏目 计算机与通信技术
研究方向 页码范围 602-608
页数 7页 分类号
字数 7251字 语种 中文
DOI 10.3772/j.issn.1002-0470.2014.06.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 史忠植 中国科学院计算技术研究所智能信息处理重点实验室 232 9166 52.0 89.0
2 齐保元 中国科学院计算技术研究所智能信息处理重点实验室 5 69 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (37)
共引文献  (43)
参考文献  (15)
节点文献
引证文献  (3)
同被引文献  (23)
二级引证文献  (18)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(8)
  • 参考文献(2)
  • 二级参考文献(6)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(5)
  • 参考文献(1)
  • 二级参考文献(4)
2008(8)
  • 参考文献(2)
  • 二级参考文献(6)
2009(4)
  • 参考文献(4)
  • 二级参考文献(0)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(3)
  • 引证文献(1)
  • 二级引证文献(2)
2017(6)
  • 引证文献(2)
  • 二级引证文献(4)
2018(9)
  • 引证文献(0)
  • 二级引证文献(9)
2019(2)
  • 引证文献(0)
  • 二级引证文献(2)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
主题词表构建
主题词抽取
维基百科(Wikipedia)
条件随机场(CRF)
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
高技术通讯
月刊
1002-0470
11-2770/N
大16开
北京市三里河路54号
82-516
1991
chi
出版文献量(篇)
5099
总下载数(次)
14
相关基金
国家科技支撑计划
英文译名:
官方网址:http://kjzc.jhgl.org/
项目类型:重大项目
学科类型:能源
论文1v1指导