原文服务方: 现代电子技术       
摘要:
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远.同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词.在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法.结果表明使用该方法的分词效果准确率、召回率和F值都有所提高.实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果.
推荐文章
基于N-Gram和动态滑动窗口的改进余弦相似度算法研究
余弦相似度算法
N-Gram算法
数据清洗
动态滑动窗口
基于N-Gram的文本去重方法研究
文本去重
文本特征
特征映射
中文信息处理
基于N-gram算法的网络安全风险检测系统设计
网络安全
风险检测
N-gram算法
数据包检测
协同分析
特征匹配
一种基于N-gram组合的中文垃圾邮件过滤方法
反垃圾邮件
中文邮件
贝叶斯模型
N-gram
代价敏感
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于规则和N-Gram算法的新词识别研究
来源期刊 现代电子技术 学科
关键词 新词识别 N-Gram算法 构词规则 中文分词 碎片库 召回率
年,卷(期) 2019,(4) 所属期刊栏目 前沿交叉科学
研究方向 页码范围 166-170
页数 5页 分类号 TN911-34|TP391
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2019.04.039
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 段隆振 南昌大学信息工程学院 78 539 11.0 20.0
2 黄水源 南昌大学信息工程学院 26 128 7.0 10.0
3 姜如霞 南昌大学信息工程学院 2 3 1.0 1.0
4 罗丽娟 南昌大学信息工程学院 8 12 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (77)
共引文献  (61)
参考文献  (10)
节点文献
引证文献  (2)
同被引文献  (0)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(10)
  • 参考文献(0)
  • 二级参考文献(10)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(12)
  • 参考文献(0)
  • 二级参考文献(12)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(10)
  • 参考文献(1)
  • 二级参考文献(9)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(9)
  • 参考文献(1)
  • 二级参考文献(8)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(5)
  • 参考文献(2)
  • 二级参考文献(3)
2016(5)
  • 参考文献(3)
  • 二级参考文献(2)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
新词识别
N-Gram算法
构词规则
中文分词
碎片库
召回率
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导