基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.
推荐文章
基于语料库的藏语高频词抽取研究
信息处理
高频词
藏语抽词
自动分词
语料库
预处理
领域语言模型及其在中文输入系统中的应用
领域语言模型
相似度
模型融合
动态自适应语言模型
中文输入系统
基于语义扩展模型的中文网页关键词抽取
中文网页关键词抽取
语义扩展模型
邻接变化数
聚类算法
n-gram语言模型
语言学特征在中文实体间语义关系抽取中的应用
信息抽取
语义关系抽取
支持向量机
语言学特征
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文高频词串的抽取及其在语言模型中的应用
来源期刊 北京邮电大学学报 学科 工学
关键词 中文高频词串 字区分度 字串切分度 n元模型 音字转换
年,卷(期) 2009,(5) 所属期刊栏目 论文
研究方向 页码范围 10-14
页数 5页 分类号 TP391.1
字数 4603字 语种 中文
DOI 10.3969/j.issn.1007-5321.2009.05.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王小捷 北京邮电大学智能科学技术研究中心 35 179 8.0 11.0
2 文娟 北京邮电大学智能科学技术研究中心 2 26 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (8)
共引文献  (11)
参考文献  (2)
节点文献
引证文献  (6)
同被引文献  (10)
二级引证文献  (5)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(4)
  • 参考文献(1)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(3)
  • 引证文献(0)
  • 二级引证文献(3)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
中文高频词串
字区分度
字串切分度
n元模型
音字转换
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京邮电大学学报
双月刊
1007-5321
11-3570/TN
大16开
北京海淀区西土城路10号
2-648
1960
chi
出版文献量(篇)
3472
总下载数(次)
19
总被引数(次)
26644
相关基金
国家科技支撑计划
英文译名:
官方网址:http://kjzc.jhgl.org/
项目类型:重大项目
学科类型:能源
论文1v1指导