基于深度学习模型的非结构化数据标注方法研究

普措才仁; 秦亚红

文献导航

搜索文章

搜索思路

钛学术文献服务平台 \
学术期刊 \
基础科学期刊 \
大学学报期刊 \
西北民族大学学报(自然科学版)期刊 \
基于深度学习模型的非结构化数据标注方法研究

基于深度学习模型的非结构化数据标注方法研究

作者：

普措才仁秦亚红

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

Instagram

Pythia体系结构

数据包

深度学习

Facebook

摘要：

大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78).

内容分析

关键词云

关键词热度

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

力学化学地球物理学地质学基础科学综合大学学报天文学天文学、地球科学数学气象学海洋学物理学生物学生物科学自然地理学和测绘学自然科学总论自然科学理论与方法资源科学非线性科学与系统科学

西北民族大学学报(自然科学版)2020年第4期西北民族大学学报(自然科学版)2020年第3期西北民族大学学报(自然科学版)2020年第2期西北民族大学学报(自然科学版)2020年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com

篇名	基于深度学习模型的非结构化数据标注方法研究
来源期刊	西北民族大学学报（自然科学版）	学科	工学
关键词	Instagram Pythia体系结构数据包深度学习 Facebook
年，卷（期）	2020,（2）	所属期刊栏目	信息技术
研究方向		页码范围	14-19,44
页数	7页	分类号	TP391.1
字数	4382字	语种	中文
DOI

序号	姓名	单位	发文数	被引次数	H指数	G指数
1	普措才仁	西北民族大学数学与计算机科学学院	40	160	6.0	12.0
2	秦亚红	西北民族大学数学与计算机科学学院	2	0	0.0	0.0