基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
文本相似度计算是自然语言处理领域的研究热点和难点.自2013年"一带一路"倡议提出以来,我国急需小语种国家和地区的商业情报信息.选取中文和藏文进行比较,并采用基于多级双语向量空间映射技术的文本相似度算法计算藏汉文本相似度.首先,对文本进行预处理,并对中文文本和藏文文本进行分词;然后,利用多级双语向量空间映射框架,将藏文词向量和中文词向量映射到同一抽象的语义空间下,词间相似度则由映射后的词向量计算得出;最后,计算得出基于词间相似度的文本相似度.利用已训练完毕的汉藏词向量得到最佳多级框架,再选择6个类别的中文和藏文新闻作为试验数据,配以映射后的汉藏词向量计算汉藏文本相似度.试验结果表明,该方法可通过相似度结果有效区分同类别和异类别新闻.
推荐文章
一种PST_LDA中文文本相似度计算方法
词性标注
LDA模型
PST_LDA模型
文本相似度计算
基于词汇语义信息的文本相似度计算
文本相似度
词向量
词频—逆文档频率
一种基于熵的文本相似性计算方法
文本相似性
字符串匹配
编辑距离算法
最长公共子序列
基于VSM的文本相似度计算的研究
文本相似度
特征选择
词频-逆文档频率法
向量空间模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 资源贫乏型语言间文本相似度计算方法
来源期刊 指挥信息系统与技术 学科 工学
关键词 资源贫乏型语言 文本相似度 双语向量空间映射 多级框架
年,卷(期) 2019,(4) 所属期刊栏目 理论与探索
研究方向 页码范围 27-32
页数 6页 分类号 TP391
字数 6555字 语种 中文
DOI 10.15908/j.cnki.cist.2019.04.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘功申 上海交通大学电子信息与电气工程学院 97 848 14.0 25.0
2 刘一丁 上海交通大学电子信息与电气工程学院 1 3 1.0 1.0
3 陈晓琳 中国电子科技集团公司第二十八研究所 2 3 1.0 1.0
4 尹晓阳 中国电子科技集团公司第二十八研究所 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (67)
参考文献  (5)
节点文献
引证文献  (3)
同被引文献  (12)
二级引证文献  (0)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(5)
  • 参考文献(3)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
资源贫乏型语言
文本相似度
双语向量空间映射
多级框架
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
指挥信息系统与技术
双月刊
1674-909X
32-1818/TP
16开
南京1406信箱62分箱
28-430
2010
chi
出版文献量(篇)
1287
总下载数(次)
8
总被引数(次)
4322
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导