基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用 word2vec 工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于 VSM和基于 LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.
推荐文章
藏文文本聚类及其相关技术综述
藏文文本
聚类算法
文本建模
一种面向聚类的文本建模方法
主题模型
word2vec
文本建模
文本聚类
基于藏文新闻文本话题检测的聚类算法研究
聚类算法
种子话题
藏文新闻文本
话题检测
面向信息检索的藏文文本索引策略研究
信息检索
藏文文本
索引技术
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向藏文聚类的文本建模方法
来源期刊 西北民族大学学报(自然科学版) 学科 工学
关键词 藏文文本 文本建模 文本聚类 词性标注 词向量
年,卷(期) 2016,(3) 所属期刊栏目 信息技术
研究方向 页码范围 24-28,79
页数 6页 分类号 TP391
字数 5169字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于洪志 西北民族大学甘肃省民族语言智能处理重点实验室 157 612 12.0 16.0
2 江涛 西北民族大学甘肃省民族语言智能处理重点实验室 10 31 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (60)
共引文献  (221)
参考文献  (14)
节点文献
引证文献  (4)
同被引文献  (22)
二级引证文献  (0)
1975(3)
  • 参考文献(1)
  • 二级参考文献(2)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(3)
  • 参考文献(1)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(1)
  • 二级参考文献(4)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(7)
  • 参考文献(0)
  • 二级参考文献(7)
2010(6)
  • 参考文献(1)
  • 二级参考文献(5)
2011(8)
  • 参考文献(1)
  • 二级参考文献(7)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(4)
  • 参考文献(3)
  • 二级参考文献(1)
2014(4)
  • 参考文献(4)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
藏文文本
文本建模
文本聚类
词性标注
词向量
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西北民族大学学报(自然科学版)
季刊
1009-2102
62-1188/N
大16开
兰州市西北新村1号
1980
chi
出版文献量(篇)
1696
总下载数(次)
3
总被引数(次)
5175
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导