基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能.
推荐文章
动态向量的中文短文本聚类
短文本
文本相似度
动态表示向量
文本聚类
K-means算法
中文短文本语法语义相似度算法
语法语义相似度
语句相似性计算
HowNet
语料库
语法分析
语义分析
相似度计算
基于教学评价的中文短文本情感分析
教学评价
词典
word2vec
支持向量机
核函数
情感分析
基于混合策略的中文短文本相似度计算
短文本相似度
关键词权重
层次聚类
二叉树
主干成分
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文短文本聚合模型研究
来源期刊 软件学报 学科 工学
关键词 中文短文本 聚合模型 文本相似度 广义Jaro-Winkler算法 快速匹配 精细匹配
年,卷(期) 2017,(10) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 2674-2692
页数 19页 分类号 TP391
字数 14482字 语种 中文
DOI 10.13328/j.cnki.jos.005147
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘震 电子科技大学计算机科学与工程学院互联网科学中心 46 292 9.0 15.0
5 华锦芝 中国银联股份有限公司电子支付研究院 6 41 4.0 6.0
6 郑建宾 中国银联股份有限公司电子支付研究院 4 10 2.0 3.0
7 陈晶 电子科技大学计算机科学与工程学院互联网科学中心 1 7 1.0 1.0
8 肖淋峰 电子科技大学计算机科学与工程学院互联网科学中心 1 7 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (41)
共引文献  (570)
参考文献  (20)
节点文献
引证文献  (7)
同被引文献  (26)
二级引证文献  (0)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1959(1)
  • 参考文献(0)
  • 二级参考文献(1)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(2)
  • 参考文献(1)
  • 二级参考文献(1)
1977(1)
  • 参考文献(1)
  • 二级参考文献(0)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(7)
  • 参考文献(0)
  • 二级参考文献(7)
2010(3)
  • 参考文献(2)
  • 二级参考文献(1)
2011(6)
  • 参考文献(3)
  • 二级参考文献(3)
2012(5)
  • 参考文献(3)
  • 二级参考文献(2)
2013(8)
  • 参考文献(5)
  • 二级参考文献(3)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(4)
  • 参考文献(1)
  • 二级参考文献(3)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文短文本
聚合模型
文本相似度
广义Jaro-Winkler算法
快速匹配
精细匹配
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导