基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
海量中文信息处理是大数据处理的一个分支,而利用大数据技术进行中文信息处理一定离不开中文分词,所以中文分词技术是大数据中文信息处理的基础性技术.中文分词技术自本世纪以来,一直在性能与精确度两个方向在推进;在性能方面主要以改进分词扫瞄算法,改进词库存储技术与查询方式来提高性能.在精确度上主要是对未登录词与歧义词的甄别与处理方法进行改进.本文摒弃了通过词库索引查询的思想,提出一种基于字符树的词库存储结构.它的分词速度是普通折半法的35倍,占用内存只是它的1/5.它将为大数据技术在处理中文信息时在性能上推进了一大步.
推荐文章
中文词表检索技术研究
中文信息处理
电子词表
哈希函数
泊松分布
基于分布的中文词表示研究
分布表示
语义相似度
逐点互信息
具有三级索引词库结构的中文分词方法研究
中文切词
正向最大匹配
词库
索引密度
全文检索
基于混合聚类的中文词聚类
词聚类
层次聚类
概念聚类
混合聚类
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字符树结构的高性能中文词库技术
来源期刊 计算机系统应用 学科
关键词 字符树 中文分词 散列法 折半法 时间复杂度
年,卷(期) 2019,(8) 所属期刊栏目 研究开发
研究方向 页码范围 262-267
页数 6页 分类号
字数 5493字 语种 中文
DOI 10.15888/j.cnki.csa.007052
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨光豹 浙江广播电视大学青田学院 5 14 3.0 3.0
2 杨丰赫 东南大学网络空间安全学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (107)
共引文献  (40)
参考文献  (13)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(6)
  • 参考文献(0)
  • 二级参考文献(6)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(6)
  • 参考文献(0)
  • 二级参考文献(6)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(8)
  • 参考文献(0)
  • 二级参考文献(8)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(7)
  • 参考文献(1)
  • 二级参考文献(6)
2011(11)
  • 参考文献(0)
  • 二级参考文献(11)
2012(6)
  • 参考文献(0)
  • 二级参考文献(6)
2013(8)
  • 参考文献(0)
  • 二级参考文献(8)
2014(13)
  • 参考文献(1)
  • 二级参考文献(12)
2015(10)
  • 参考文献(1)
  • 二级参考文献(9)
2016(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(5)
  • 参考文献(4)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
字符树
中文分词
散列法
折半法
时间复杂度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导