原文服务方: 现代电子技术       
摘要:
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题.为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法.先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性.实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用.
推荐文章
基于互信息和邻接熵的新词发现算法
新词发现
互信息
邻接熵
微博语料
基于互信息和邻接熵的新词发现算法
新词发现
互信息
邻接熵
微博语料
基于最小化邻域互信息的邻域熵属性约简算法
粗糙集
属性约简
混合型信息系统
邻域熵
邻域互信息熵
基于最大互信息最大相关熵的特征选择方法
模糊粗糙集
信息熵
特征选择
互信息
相关熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Trie树的词语左右熵和互信息新词发现算法
来源期刊 现代电子技术 学科
关键词 新词发现算法 左右熵 互信息 Trie树 算法设计 对比验证
年,卷(期) 2020,(6) 所属期刊栏目 计算机科学与应用
研究方向 页码范围 65-69
页数 5页 分类号 TN911-34|TP391.1
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2020.06.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦怀斌 石河子大学信息科学与技术学院 45 205 7.0 12.0
2 郭理 石河子大学信息科学与技术学院 56 366 8.0 17.0
3 王嘉岐 石河子大学信息科学与技术学院 2 0 0.0 0.0
4 张恒旭 石河子大学信息科学与技术学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (115)
共引文献  (54)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(11)
  • 参考文献(0)
  • 二级参考文献(11)
2011(17)
  • 参考文献(0)
  • 二级参考文献(17)
2012(14)
  • 参考文献(0)
  • 二级参考文献(14)
2013(21)
  • 参考文献(0)
  • 二级参考文献(21)
2014(10)
  • 参考文献(1)
  • 二级参考文献(9)
2015(13)
  • 参考文献(3)
  • 二级参考文献(10)
2016(11)
  • 参考文献(3)
  • 二级参考文献(8)
2017(5)
  • 参考文献(4)
  • 二级参考文献(1)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
新词发现算法
左右熵
互信息
Trie树
算法设计
对比验证
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导