原文服务方: 计算机应用研究       
摘要:
如何快速高效地识别新词是自然语言处理中一项非常重要的任务.针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法.通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集.解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题.最后通过实验验证了该算法的有效性.
推荐文章
基于Trie树的词语左右熵和互信息新词发现算法
新词发现算法
左右熵
互信息
Trie树
算法设计
对比验证
基于Trie树的词语左右熵和互信息新词发现算法
新词发现算法
左右熵
互信息
Trie树
算法设计
对比验证
基于最小化邻域互信息的邻域熵属性约简算法
粗糙集
属性约简
混合型信息系统
邻域熵
邻域互信息熵
基于互信息改进算法的新词发现对中文分词系统改进
新词识别
未登录词
互信息
PMI改进算法
中文分词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于互信息和邻接熵的新词发现算法
来源期刊 计算机应用研究 学科
关键词 新词发现 互信息 邻接熵 微博语料
年,卷(期) 2019,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1293-1296
页数 4页 分类号 TP301.6
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2017.11.0745
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘培玉 山东师范大学信息科学与工程学院 126 1276 18.0 27.0
3 刘文锋 山东师范大学信息科学与工程学院 18 39 4.0 5.0
7 李娜娜 山东师范大学信息科学与工程学院 7 30 4.0 5.0
13 刘伟童 山东师范大学信息科学与工程学院 2 16 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (48)
共引文献  (83)
参考文献  (12)
节点文献
引证文献  (6)
同被引文献  (27)
二级引证文献  (2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(7)
  • 参考文献(1)
  • 二级参考文献(6)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(7)
  • 参考文献(1)
  • 二级参考文献(6)
2011(6)
  • 参考文献(0)
  • 二级参考文献(6)
2012(5)
  • 参考文献(1)
  • 二级参考文献(4)
2013(12)
  • 参考文献(3)
  • 二级参考文献(9)
2014(4)
  • 参考文献(1)
  • 二级参考文献(3)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2019(4)
  • 引证文献(4)
  • 二级引证文献(0)
2020(4)
  • 引证文献(2)
  • 二级引证文献(2)
研究主题发展历程
节点文献
新词发现
互信息
邻接熵
微博语料
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导