基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性.[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集.随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则.最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度.[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题.
推荐文章
基于类向量模型的中文姓名识别研究
中文姓名识别
类向量模型
Viterbi算法
基于汉字
基于规则的情感本体和词向量的中文情感分类
句法规则
Word2vec
情感本体
情感词典
融合词向量特征的双词主题模型
主题模型
潜在狄利克雷分配
短文本
双词主题模型
词向量
吉布斯采样
基于特征权重的词向量文本表示模型
TF-IDF模型
N-Gram模型
Glove模型
文本表示
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于词向量模型的中文序列比对研究
来源期刊 图书情报工作 学科 工学
关键词 Word2vec 中文序列 序列比对 全局比对 文本相似度
年,卷(期) 2020,(10) 所属期刊栏目 知识组织
研究方向 页码范围 86-98
页数 13页 分类号 TP391.1
字数 语种 中文
DOI 10.13266/j.issn.0252-3116.2020.10.010
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (31)
共引文献  (210)
参考文献  (23)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1970(3)
  • 参考文献(1)
  • 二级参考文献(2)
1981(1)
  • 参考文献(1)
  • 二级参考文献(0)
1987(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(2)
  • 参考文献(1)
  • 二级参考文献(1)
1992(2)
  • 参考文献(1)
  • 二级参考文献(1)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(6)
  • 参考文献(0)
  • 二级参考文献(6)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2001(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(4)
  • 参考文献(3)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(3)
  • 参考文献(3)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Word2vec
中文序列
序列比对
全局比对
文本相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
图书情报工作
半月刊
0252-3116
11-1541/G2
16开
北京中关村北四环西路33号
2-412
1980
chi
出版文献量(篇)
11437
总下载数(次)
32
总被引数(次)
130230
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导