基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大多数图像描述及视觉问答任务中,主要工作是对图像数据的拟合分类,而缺乏图像中物体之间的关系推理,导致描述图像或回答问题时准确率不高.为解决该问题,本文提出一种基于物体检测及关系推理的视觉问答模型.该模型由上游网络和下游网络两部分组成,上游网络采用极快速区域卷积神经网络,下游网络由多层感知机组成的多模态特征融合推理网络构成.上游网络对图像进行物体检测与特征提取,利用长短期记忆网络对提问的问题进行信息提取以嵌入下游网络;下游网络对问题和图像的特征进行融合和推理,进而得出答案.采用数据集CLEVR进行模型训练与视觉问答测试,实验结果表明,本模型与其他已有模型相比,图像中物体之间关系推理的准确率获得了提高,达到98.96%.
推荐文章
一种基于边缘图像的快速物体检测方法
物体检测
边缘模值
边缘方向
包围盒
得分
滑动窗
基于深度学习的视觉问答技术研究
视觉问答技术
注意力机制
数据集
基于运动估计的运动物体检测技术研究
运动物体检测
运动估计
运动矢量
匹配误差
基于马尔可夫随机场的运动物体检测方法
视频图像
高斯混合模型
运动检测
马尔可夫随机场
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于物体检测及关系推理的视觉问答方法研究
来源期刊 测试技术学报 学科 工学
关键词 深度学习 视觉问答 关系推理 长短期记忆网络 多模态特征融合
年,卷(期) 2020,(5) 所属期刊栏目 数据采集与图像处理
研究方向 页码范围 439-445,450
页数 8页 分类号 TP317.4
字数 语种 中文
DOI 10.3969/j.issn.1671-7449.2020.05.013
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张丽红 44 191 8.0 12.0
2 邱真娜 1 0 0.0 0.0
3 陶云松 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度学习
视觉问答
关系推理
长短期记忆网络
多模态特征融合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
测试技术学报
双月刊
1671-7449
14-1301/TP
大16开
太原13号信箱
22-14
1986
chi
出版文献量(篇)
2837
总下载数(次)
7
总被引数(次)
13975
论文1v1指导