基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高.为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入.本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能.
推荐文章
基于双数组Trie树中文分词研究
自然语言处理
双数组
Trie树
词典
分词
基于双数组Trie树中文分词研究
自然语言处理
双数组
Trie树
词典
分词
基于双数组Trie树的渔业领域分词研究
双数组Trie
双字Hash
渔业信息处理
词典
基于词典和词频的中文分词方法
中文分词
歧义消除
词频
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于双数组Trie树的中文分词词典算法优化研究
来源期刊 计算机工程与科学 学科 工学
关键词 双数组 Trie树 时间复杂度 分词词典
年,卷(期) 2013,(9) 所属期刊栏目 数据挖掘
研究方向 页码范围 127-131
页数 5页 分类号 TP391.3
字数 3645字 语种 中文
DOI 10.3969/j.issn.1007-130X.2013.09.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于淼 北京邮电大学计算机学院 2 19 2.0 2.0
2 杨文川 北京邮电大学计算机学院 10 39 4.0 6.0
3 刘健 北京邮电大学计算机学院 1 15 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (22)
共引文献  (69)
参考文献  (5)
节点文献
引证文献  (15)
同被引文献  (59)
二级引证文献  (20)
1989(4)
  • 参考文献(1)
  • 二级参考文献(3)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(2)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(4)
  • 引证文献(2)
  • 二级引证文献(2)
2018(9)
  • 引证文献(6)
  • 二级引证文献(3)
2019(12)
  • 引证文献(4)
  • 二级引证文献(8)
2020(6)
  • 引证文献(0)
  • 二级引证文献(6)
研究主题发展历程
节点文献
双数组
Trie树
时间复杂度
分词词典
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导