作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
词义消歧,作为自然语言处理领域最具挑战性的任务之一,目前正面临着知识获取瓶颈(Knowledge Acquisition Bottleneck)的阻碍.目录标签消歧,作为词义消歧的又一崭新的应用领域,是轻量级本体学习(Lightweight Ontology Learning)中十分重要的一个环节.旨在探索一种基于Web知识(不受知识获取瓶颈制约)并应用于目录标签消歧的词义消歧方法.其主要思想为:首先,利用Web知识(Web搜索引擎)和WordNet等外部资源,将待消歧词t的上下文c及n个候选词义s1…sn扩展为各自的向量形式,并提出的一种tf-idf变体(条件tf-idf)来计算向量中的分量值.之后,又提出一种新颖的混合消歧模型,综合考虑各候选词义与待消歧词上下文的相关度及候选词义先验分布这两个因素进行消歧.据了解,类似做法在基于Web的词义消歧中还未出现过.在实验中,在网页目录DMOZ的一个子集(共1100个待消歧词)上进行了实验.系统以100%的召回率达到83.40%的准确率,高于基线准确率(单纯根据词义先验分布消歧)73.37%达10个百分点.
推荐文章
基于稀疏分布式表征的英文著者姓名消歧研究
姓名消歧
稀疏分布式表征
语义指纹
层级时序记忆模型
基于义类的无导词义消歧方法的研究
自然语言处理
词义消歧
无导方法
义类
基于词向量的无监督词义消歧方法
词义消歧
词向量
自然语言处理
机器翻译
Word2vec
基于句法分析的汉语词义消歧
词义消歧
句法信息
词性
消歧分类器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Web知识的无监督英文目录标签消歧
来源期刊 计算机应用与软件 学科 工学
关键词 词义消岐 基于Web知识 无监督 轻量级本体
年,卷(期) 2010,(9) 所属期刊栏目
研究方向 页码范围 224-227,282
页数 分类号 TP3
字数 6399字 语种 中文
DOI 10.3969/j.issn.1000-386X.2010.09.071
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙磊 8 72 2.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (1)
同被引文献  (8)
二级引证文献  (0)
2010(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词义消岐
基于Web知识
无监督
轻量级本体
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导