基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈, 归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法的研究内容.基于词典的分词算法以提高时间和空间效率为目标, 通过改进词典结构来提高分词效率.双字哈希结构是目前查词性能较好的词典机制, 但对于歧义消除和未登录词识别的贡献度有限.基于统计的分词算法通过改进统计语言概率模型, 在一定程度上可消除中文分词的歧义, 较好地识别出未登录词.条件随机场模型 (CRF) 综合了隐马尔科夫模型 (HMM) 和最大熵模型 (ME) 的特征, 是目前基于统计分词算法的主流训练模型.随着神经网络的研究应用, 基于语义理解的分词算法对歧义消除和未登录词识别表现出较好的性能, 能够提高中文分词的正确率.未来中文分词算法将更多地围绕上下文语义开展研究, 运用深度学习技术进一步提升歧义消除和未登录词识别的能力, 从而提高中文分词的正确率.
推荐文章
中文分词算法研究与分析
中文分词
字符串匹配分词
统计分词
理解分词
中文分词歧义识别算法的优化
中文分词
逆向最大匹配算法
歧义识别
算法优化
中文分词算法研究与分析
中文分词
字符串匹配分词
统计分词
理解分词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文分词算法研究综述
来源期刊 成组技术与生产现代化 学科 工学
关键词 中文分词 歧义消除 未登录词识别 词典机制 语义理解 深度学习
年,卷(期) 2018,(3) 所属期刊栏目 信息化技术
研究方向 页码范围 1-8
页数 8页 分类号 TP312
字数 9733字 语种 中文
DOI 10.3969/j.issn.1006-3269.2018.03.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨文珍 浙江理工大学机械与自动控制学院 49 162 7.0 9.0
2 吴新丽 浙江理工大学机械与自动控制学院 35 169 8.0 11.0
3 徐豪杰 浙江理工大学机械与自动控制学院 6 12 1.0 3.0
4 汪文妃 浙江理工大学机械与自动控制学院 1 11 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (115)
共引文献  (555)
参考文献  (30)
节点文献
引证文献  (11)
同被引文献  (0)
二级引证文献  (0)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
1987(5)
  • 参考文献(0)
  • 二级参考文献(5)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(3)
  • 参考文献(0)
  • 二级参考文献(3)
1995(7)
  • 参考文献(2)
  • 二级参考文献(5)
1996(7)
  • 参考文献(0)
  • 二级参考文献(7)
1997(11)
  • 参考文献(0)
  • 二级参考文献(11)
1998(5)
  • 参考文献(1)
  • 二级参考文献(4)
1999(6)
  • 参考文献(0)
  • 二级参考文献(6)
2000(4)
  • 参考文献(2)
  • 二级参考文献(2)
2001(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(4)
  • 参考文献(3)
  • 二级参考文献(1)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(10)
  • 参考文献(0)
  • 二级参考文献(10)
2005(6)
  • 参考文献(1)
  • 二级参考文献(5)
2006(12)
  • 参考文献(2)
  • 二级参考文献(10)
2007(15)
  • 参考文献(3)
  • 二级参考文献(12)
2008(6)
  • 参考文献(2)
  • 二级参考文献(4)
2009(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(5)
  • 参考文献(3)
  • 二级参考文献(2)
2014(4)
  • 参考文献(0)
  • 二级参考文献(4)
2015(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(2)
  • 参考文献(1)
  • 二级参考文献(1)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(6)
  • 引证文献(6)
  • 二级引证文献(0)
2020(5)
  • 引证文献(5)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文分词
歧义消除
未登录词识别
词典机制
语义理解
深度学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
成组技术与生产现代化
季刊
1006-3269
41-1226/TB
大16开
河南省郑州市中原中路191号
1984
chi
出版文献量(篇)
1198
总下载数(次)
3
论文1v1指导