基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究.该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法.该方法包括高效的"二元语法"统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法.实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语.
推荐文章
博客语料的新词发现方法
新词
词串统计
上下文分析
分词
候选词
基于规则和N-Gram算法的新词识别研究
新词识别
N-Gram算法
构词规则
中文分词
碎片库
召回率
基于Trie树的词语左右熵和互信息新词发现算法
新词发现算法
左右熵
互信息
Trie树
算法设计
对比验证
基于词内部结合度和边界自由度的新词发现
新词发现
内部结合度
边界自由度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于概率统计技术和规则方法的新词发现
来源期刊 计算机工程 学科 工学
关键词 新词发现 短语抽取 二元语法 语料库
年,卷(期) 2004,(20) 所属期刊栏目 博士论文
研究方向 页码范围 19-21,83
页数 4页 分类号 TP311
字数 5014字 语种 中文
DOI 10.3969/j.issn.1000-3428.2004.20.009
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 史忠植 中国科学院计算技术研究所 232 9166 52.0 89.0
2 贾自艳 中国科学院计算技术研究所 5 189 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (92)
同被引文献  (64)
二级引证文献  (263)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2005(2)
  • 引证文献(2)
  • 二级引证文献(0)
2006(4)
  • 引证文献(3)
  • 二级引证文献(1)
2007(13)
  • 引证文献(9)
  • 二级引证文献(4)
2008(24)
  • 引证文献(13)
  • 二级引证文献(11)
2009(30)
  • 引证文献(10)
  • 二级引证文献(20)
2010(27)
  • 引证文献(8)
  • 二级引证文献(19)
2011(24)
  • 引证文献(7)
  • 二级引证文献(17)
2012(31)
  • 引证文献(6)
  • 二级引证文献(25)
2013(32)
  • 引证文献(8)
  • 二级引证文献(24)
2014(29)
  • 引证文献(6)
  • 二级引证文献(23)
2015(25)
  • 引证文献(4)
  • 二级引证文献(21)
2016(20)
  • 引证文献(2)
  • 二级引证文献(18)
2017(24)
  • 引证文献(4)
  • 二级引证文献(20)
2018(25)
  • 引证文献(8)
  • 二级引证文献(17)
2019(32)
  • 引证文献(1)
  • 二级引证文献(31)
2020(13)
  • 引证文献(1)
  • 二级引证文献(12)
研究主题发展历程
节点文献
新词发现
短语抽取
二元语法
语料库
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
相关基金
北京市自然科学基金
英文译名:Natural Science Foundation of Beijing Province
官方网址:http://210.76.125.39/zrjjh/zrjj/
项目类型:重大项目
学科类型:
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导