基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数据集,该文进行多组实验并进行实验结果分析.特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取.实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取表现最佳,而在跨领域实验中BERT表现最佳.同时,该文发现增加少量目标领域标注数据可以有效提高跨领域属性抽取效果,增强了模型的领域适应性.
推荐文章
TSPT:基于预训练的三阶段复合式文本摘要模型
预训练
复合式文本摘要模型
抽取式方法
生成式方法
双向上下文信息词向量
基于辩论的多商品谈判模型研究
辩论
多智能体谈判
多商品谈判
谈判模型
基于 BERT 预训练模型的教育装备供应链舆情报告系统
教育装备
舆情系统
BERT 预训练模型
报告系统
面向军事装备实体的属性抽取
军事装备实体
属性抽取
统计分析
频繁模式挖掘
基于规则
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于预训练语言模型的商品属性抽取
来源期刊 中文信息学报 学科 工学
关键词 属性抽取 远程监督 预训练语言模型 跨领域学习
年,卷(期) 2022,(1) 所属期刊栏目 信息抽取与文本挖掘|Information Extraction and Text Mining
研究方向 页码范围 56-64
页数 9页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1003-0077.2022.01.007
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
属性抽取
远程监督
预训练语言模型
跨领域学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导