基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78).
推荐文章
非结构化数据的ETL设计
非结构化数据
结构化数据
CWM
ETL
基于公共模型技术的非结构化元数据管理技术研究与应用
公共模型技术
非结构化
元数据
管理
非结构化数据的可视化编辑系统
非结构化数据
超图
创新设计
可视化
基于非结构化文本检索模型综述
相似度计算
检索模型
语义检索
概率相关性
数学理论
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于深度学习模型的非结构化数据标注方法研究
来源期刊 西北民族大学学报(自然科学版) 学科 工学
关键词 Instagram Pythia体系结构 数据包 深度学习 Facebook
年,卷(期) 2020,(2) 所属期刊栏目 信息技术
研究方向 页码范围 14-19,44
页数 7页 分类号 TP391.1
字数 4382字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 普措才仁 西北民族大学数学与计算机科学学院 40 160 6.0 12.0
2 秦亚红 西北民族大学数学与计算机科学学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Instagram
Pythia体系结构
数据包
深度学习
Facebook
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西北民族大学学报(自然科学版)
季刊
1009-2102
62-1188/N
大16开
兰州市西北新村1号
1980
chi
出版文献量(篇)
1696
总下载数(次)
3
总被引数(次)
5175
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导