潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具.但是它是建立在词袋模型(bag of word,BOW)假设上的,这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系.同时针对现有的模型精度不高,提出了基于中心词的上下文主题模型.这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密.在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算.这种方法就会形成窗口与窗口之间的顺序,从而形成单词之间也是局部有序.同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关.通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度.