作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?
推荐文章
博客语料的新词发现方法
新词
词串统计
上下文分析
分词
候选词
一种基于大规模语料的新词识别方法
新词
邻接类别
单字成词概率
双字耦合度
大规模语料的频繁模式快速发现算法
频繁模式
语料划分
重复串
基于互信息和邻接熵的新词发现算法
新词发现
互信息
邻接熵
微博语料
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于大规模语料的新词发现算法
来源期刊 程序员 学科 工学
关键词 发现算法 自然语言处理 语料 中文资料 计算机 空格 汉语 分词
年,卷(期) 2012,(7) 所属期刊栏目
研究方向 页码范围 54-57
页数 4页 分类号 TP311.13
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾森 北京大学中文系 3 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
发现算法
自然语言处理
语料
中文资料
计算机
空格
汉语
分词
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
程序员
月刊
1672-3252
11-5038/G2
16开
北京市朝阳区广顺北大街33号院1号楼福码
2-665
2000
chi
出版文献量(篇)
10184
总下载数(次)
35
总被引数(次)
6420
论文1v1指导