基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料.为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕.然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对齐,从而将剧本中的场景和说话者信息映射到双语字幕中,最后得到含有场景及说话者标注的汉英双语日常会话库.该文利用这种方法,自动构建了包含978109对双语话语消息的接近人类日常会话的多轮会话数据库CEDAC.经过抽样分析,场景边界的标注准确率达到97.0%,而说话者的标注准确率也达到91.57%.该标注库为后续进行影视剧字幕说话者自动标注和多轮会话自动生成研究打下了很好的基础.
推荐文章
探析电视剧宣传片制作中的创新
电视剧宣传片
新语境
创新
电视剧缩编网络的研究与设计
电视剧
缩编
制播业务
媒资系统
探析国内电视剧编剧的生存困境
编剧
电视剧
生存困境
探析地面频道的电视剧编排策略
地面频道
电视剧
编排
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 自动构建基于电视剧字幕和剧本的日常会话基础标注库
来源期刊 中文信息学报 学科 工学
关键词 日常会话语料 电视剧剧本解析 双语字幕同步 剧本和字幕的自动对齐
年,卷(期) 2020,(1) 所属期刊栏目 语言资源建设
研究方向 页码范围 23-33
页数 11页 分类号 TP391
字数 8683字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周强 清华大学信息技术研究院语音和语言技术中心北京信息科学与技术国家研究中心 73 599 13.0 22.0
2 梁宇海 北京邮电大学信息光子学与光通信研究院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
日常会话语料
电视剧剧本解析
双语字幕同步
剧本和字幕的自动对齐
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导