在视频描述框架中引入语义特征可以增强视频描述,不同域中提取到的语义特征的融合程度对视频描述的准确率会产生重要的影响.针对这一问题,构建了一个新的视频描述模型.该模型在现有的视频描述框架的基础上,利用迁移学习中的深度域适应方法,实现图像与帧流中语义特征的深度融合,将融合语义特征作为视频描述框架的输入,再结合视频输入与递归神经网络,生成视频的自然语言描述.在微软视频描述数据集(Microsoft Video Description Dataset,MSVD)上的实验结果表明,与现有的7种模型相比较,在视频描述框架中引入语义特征显著提高了视频描述的准确率,并且利用深度域适应方法融合不同域中的语义特征,可以进一步提升视频描述的性能.