原文服务方: 计算机应用研究       
摘要:
提出了一种基于子词链的中文新闻广播故事自动分割方法.利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题.同时,利用各级词汇表示单元之间的互补性,如词的袁义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能.在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%.基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%.基于投票法的融合可以使F-measure比传统词链方法提高9.04%.
推荐文章
地市级新闻广播融合发展研究
媒介融合
新闻广播
平台建设
研究
对新媒体语境下新闻广播创新发展的研究
新媒体
语境
新闻广播
创新发展
关于重大新闻广播直播的思考
新闻性
团队协作
直播技巧
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于子词链的中文新闻广播故事自动分割
来源期刊 计算机应用研究 学科
关键词 子词 词链 主题分割 故事分割 信息检索 语音文件检索
年,卷(期) 2009,(2) 所属期刊栏目 软件技术研究
研究方向 页码范围 583-586,594
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2009.02.055
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨玉莲 西北工业大学计算机学院 2 6 2.0 2.0
2 谢磊 西北工业大学计算机学院 18 50 5.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (12)
参考文献  (6)
节点文献
引证文献  (4)
同被引文献  (12)
二级引证文献  (0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(2)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(2)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
子词
词链
主题分割
故事分割
信息检索
语音文件检索
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导