基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量.然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远.基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量.实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能.
推荐文章
基于分布的中文词表示研究
分布表示
语义相似度
逐点互信息
基于OPC DA Server的分布式多Agent信息融合机构
OPC DA Server
多Agent
过程智能控制
信息融合机构
基于信息融合的分布式入侵检测系统
入侵检测
信息融合
信息过滤
信息关联
基于惯性网络的分布式信息融合算法
惯性导航
分布式导航
分布式信息融合
惯性网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多源信息融合的分布式词表示学习
来源期刊 中文信息学报 学科 工学
关键词 词表示学习 词表示 词嵌入 词向量 词特征学习
年,卷(期) 2019,(10) 所属期刊栏目 知识表示与知识获取
研究方向 页码范围 18-30
页数 13页 分类号 TP391
字数 11912字 语种 中文
DOI 10.3969/j.issn.1003-0077.2019.10.003
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (21)
共引文献  (85)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(2)
  • 参考文献(1)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2010(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词表示学习
词表示
词嵌入
词向量
词特征学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导