基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
推荐文章
基于RZF的大规模MIMO系统容量优化算法
RZF预编码
系统容量
参数优化
二分法
大规模数据集的分布式索引机制研究
大规模数据集
分布式系统
索引结构
B+树
聚簇索引
基于多重特征匹配的点云配准算法
八叉树
移动最小二乘拟合
曲率
点云配准
四元数
基于SURF和快速近似最近邻搜索的图像匹配算法
图像匹配
快速近似邻近点搜索
加速鲁棒特征
改进的样本一致性
双向匹配
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于多重索引模型的大规模词典近似匹配算法
来源期刊 计算机研究与发展 学科 工学
关键词 模式匹配 近似匹配 多重索引模型 大规模词典 拼写检查
年,卷(期) 2008,(10) 所属期刊栏目 信息检索
研究方向 页码范围 1776-1781
页数 6页 分类号 TP301.6
字数 5573字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 许洪波 中国科学院计算技术研究所 42 988 14.0 31.0
2 白硕 中国科学院计算技术研究所 50 2124 21.0 46.0
3 龚才春 中国科学院计算技术研究所 1 12 1.0 1.0
7 黄玉兰 中国科学院计算技术研究所 1 12 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (6)
节点文献
引证文献  (12)
同被引文献  (10)
二级引证文献  (21)
1974(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2009(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2011(3)
  • 引证文献(3)
  • 二级引证文献(0)
2012(3)
  • 引证文献(2)
  • 二级引证文献(1)
2013(7)
  • 引证文献(4)
  • 二级引证文献(3)
2014(7)
  • 引证文献(1)
  • 二级引证文献(6)
2015(7)
  • 引证文献(0)
  • 二级引证文献(7)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
模式匹配
近似匹配
多重索引模型
大规模词典
拼写检查
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
相关基金
国家重点基础研究发展计划(973计划)
英文译名:National Basic Research Program of China
官方网址:http://www.973.gov.cn/
项目类型:
学科类型:农业
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导