基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文搜索引擎中的词库是提高文本信息存储与查找效率的关键.以异或Hash算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的Hash值区间.实验结果表明该算法可以将Hash值的冲突率降低到0.327‰,该方法可用于计算机语料库建设和中文输入法等自然语言处理过程.
推荐文章
一种自适应系统的体系结构建模方法
软件自适应
软件体系结构
C2风格
统一建模语言
一种自适应烟标字符提取方法
支持向量机
背景重构
N-Otsu法
最优二值化
字符提取
一种Roberts自适应边缘检测方法
图像处理
边缘检测
自适应阈值
一种新的快速自适应车牌定位方法
智能交通系统
车牌定位
纹理分析
灰度投影
自适应
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种自适应字长的中文词库的构建方法
来源期刊 计算机研究与发展 学科 工学
关键词 异或算法 Hash函数 中文词库 自适应字长
年,卷(期) 2011,(z1) 所属期刊栏目 数据仓库和数据挖掘技术
研究方向 页码范围 382-386
页数 分类号 TP391.3
字数 3627字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 詹海生 西安电子科技大学计算机学院 13 111 4.0 10.0
2 王启户 西安电子科技大学计算机学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (5)
参考文献  (6)
节点文献
引证文献  (1)
同被引文献  (15)
二级引证文献  (1)
1972(1)
  • 参考文献(1)
  • 二级参考文献(0)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
1994(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
1996(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
异或算法
Hash函数
中文词库
自适应字长
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导