基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
该文针对非任务导向型对话的回复质量构建了一个大规模的人工标注中文数据集,该数据集包含了从社交媒体收集到的超过27000个对话问题以及超过82000个对话问题的回复①.为了产生高质量的标注数据,邀请了专业人员根据对话回复的相关性、连贯性、信息性、趣味性,以及是否潜在地具有让对话继续延续的特性进行标注,在标注中定义了一个五级评分方法,分别是:极差的、较差的、一般的、较好的、极好的.为了测试标注产生的数据集是否具有有效性和实用性,以对话回复选择为任务,在标注数据集上测试了多种无监督和有监督模型.实验结果表明,该数据集对于提升对话回复选择的质量有显著效果.
推荐文章
基于LSTM网络的序列标注中文分词法
中文分词
LSTM
字嵌入
自然语言处理
配电网CAD系统中文本标注技术与应用
文本标注
配电网
CAD
矢量图形
基于BI_LSTM_CRF神经网络的序列标注中文分词方法
自然语言处理
中文分词
神经网络
双向长短时记忆条件随机场
字嵌入
序列标注
基于误差剔除和数据挖掘的人工气候室测试系统
智能控制
人工气候室
智能测试
疏失误差
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向非任务型对话系统的人工标注中文数据集
来源期刊 中文信息学报 学科 工学
关键词 对话系统 人工标注 中文数据集
年,卷(期) 2019,(3) 所属期刊栏目 语言资源建设
研究方向 页码范围 17-24
页数 8页 分类号 TP391
字数 7100字 语种 中文
DOI 10.3969/j.issn.1003-0077.2019.03.003
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (14)
共引文献  (189)
参考文献  (8)
节点文献
引证文献  (3)
同被引文献  (13)
二级引证文献  (0)
1950(1)
  • 参考文献(1)
  • 二级参考文献(0)
1966(1)
  • 参考文献(1)
  • 二级参考文献(0)
1971(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(2)
  • 参考文献(1)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
对话系统
人工标注
中文数据集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导