基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题.针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法.利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果.针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标.与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%.
推荐文章
基于规则和N-Gram算法的新词识别研究
新词识别
N-Gram算法
构词规则
中文分词
碎片库
召回率
一种基于在线学习的弹道识别方法
弹道识别
支持向量机(SVM)
在线优化
Pegasos
一种改进TF-IDF的中文邮件识别算法研究
TF-IDF算法
邮件识别
卡方统计量
权重分配
邮件分类
仿真分析
一种基于半监督主动学习的动态贝叶斯网络算法
动态贝叶斯网络
半监督主动学习
主动学习
最小相对熵
投票熵
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于主动学习的中文新词识别算法
来源期刊 电讯技术 学科 工学
关键词 中文自然语言处理 中文新词识别 主动学习 深度神经网络 人工规则
年,卷(期) 2020,(11) 所属期刊栏目 应用基础与前沿技术
研究方向 页码范围 1265-1270
页数 6页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-893x.2020.11.001
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (10)
参考文献  (6)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
中文自然语言处理
中文新词识别
主动学习
深度神经网络
人工规则
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电讯技术
月刊
1001-893X
51-1267/TN
大16开
成都市营康西路85号
62-39
1958
chi
出版文献量(篇)
5911
总下载数(次)
21
总被引数(次)
28744
论文1v1指导