基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难.提出一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系.在此基础上提出应用统计学习模型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果.实验表明,统计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49.72%和69.83%,达到了目前的较好水平.
推荐文章
基于统计学特征的Android恶意应用检测方法
统计学特征
机器学习
个体差异性
恶意应用检测
利用信息传播特性的中文网络新词发现方法
新词发现
信息传播
用户行为
时间特性
高中数学统计学的学习方法分析
高中数学
统计学
学习方法
借助音频数据的发音字典新词学习方法
语音识别
发音字典
新词学习
集外词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于统计学习框架的中文新词检测方法
来源期刊 计算机科学 学科 工学
关键词 统计框架 新词检测 重复模式 语言知识特征 统计特征
年,卷(期) 2012,(2) 所属期刊栏目 人工智能
研究方向 页码范围 232-235
页数 分类号 TP391
字数 5131字 语种 中文
DOI 10.3969/j.issn.1002-137X.2012.02.054
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李勇 新疆师范大学计算机科学技术学院 42 237 10.0 13.0
2 张海军 新疆师范大学计算机科学技术学院 56 979 13.0 30.0
4 齐向伟 新疆师范大学计算机科学技术学院 12 24 2.0 4.0
5 栾静 新疆师范大学计算机科学技术学院 27 159 4.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (28)
共引文献  (121)
参考文献  (8)
节点文献
引证文献  (14)
同被引文献  (58)
二级引证文献  (42)
1993(2)
  • 参考文献(0)
  • 二级参考文献(2)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(5)
  • 参考文献(1)
  • 二级参考文献(4)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(5)
  • 参考文献(1)
  • 二级参考文献(4)
2007(5)
  • 参考文献(3)
  • 二级参考文献(2)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(8)
  • 引证文献(8)
  • 二级引证文献(0)
2015(7)
  • 引证文献(3)
  • 二级引证文献(4)
2016(14)
  • 引证文献(1)
  • 二级引证文献(13)
2017(11)
  • 引证文献(1)
  • 二级引证文献(10)
2018(8)
  • 引证文献(0)
  • 二级引证文献(8)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
2020(4)
  • 引证文献(0)
  • 二级引证文献(4)
研究主题发展历程
节点文献
统计框架
新词检测
重复模式
语言知识特征
统计特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导