基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间.
推荐文章
基于CRF的中文组块分析
组块分析
条件随机域
特征函数
基于词聚类特征的统计中文组块分析模型
词聚类
信息熵
中文组块分析
句法功能
基于组块分析技术的中文机构名称识别
组块分析
中文机构名称识别
N最佳层叠模型
启发信息
中文语义组块自动抽取方法
语义表述
深度信念网络
深度学习
中文语义组块
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 级联中文组块识别
来源期刊 北京邮电大学学报 学科 工学
关键词 中文组块 边界识别 类别识别 条件随机场
年,卷(期) 2008,(1) 所属期刊栏目 论文
研究方向 页码范围 14-17
页数 4页 分类号 TP391
字数 3642字 语种 中文
DOI 10.3969/j.issn.1007-5321.2008.01.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钟义信 北京邮电大学信息工程学院 128 2678 27.0 48.0
2 王小捷 北京邮电大学信息工程学院 35 179 8.0 11.0
3 秦颖 北京邮电大学信息工程学院 4 68 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (43)
参考文献  (2)
节点文献
引证文献  (3)
同被引文献  (21)
二级引证文献  (1)
1999(3)
  • 参考文献(1)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2008(1)
  • 引证文献(1)
  • 二级引证文献(0)
2010(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
中文组块
边界识别
类别识别
条件随机场
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京邮电大学学报
双月刊
1007-5321
11-3570/TN
大16开
北京海淀区西土城路10号
2-648
1960
chi
出版文献量(篇)
3472
总下载数(次)
19
总被引数(次)
26644
论文1v1指导