基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff?3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。
推荐文章
融合词位字向量的军事领域命名实体识别
军事
命名实体识别
词位字向量
BI-GRU-CRF
深度神经网络
序列标注
基于BLSTM-CRF中文领域命名实体识别框架设计
BLSTM-CRF
CBOW
Boson
命名实体识别
基于位置敏感Embedding的中文命名实体识别
命名实体识别
表示学习
Embedding
多尺度聚类
条件随机场
基于含边界词性特征的中文命名实体识别
中文命名实体识别
条件随机场
特征模板
词性
词边界
标注集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 词边界字向量的中文命名实体识别
来源期刊 智能系统学报 学科 工学
关键词 机器学习 中文命名体识别 深度神经网络 特征向量 特征提取
年,卷(期) 2016,(1) 所属期刊栏目
研究方向 页码范围 37-42
页数 6页 分类号 TP391.1
字数 4673字 语种 中文
DOI 10.11992/tis.201507065
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘宏 北京大学信息科学技术学院 37 576 12.0 23.0
2 李鑫鑫 哈尔滨工业大学深圳研究生院计算机科学与技术学院 3 22 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (15)
同被引文献  (24)
二级引证文献  (10)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(4)
  • 引证文献(4)
  • 二级引证文献(0)
2018(2)
  • 引证文献(1)
  • 二级引证文献(1)
2019(11)
  • 引证文献(8)
  • 二级引证文献(3)
2020(8)
  • 引证文献(2)
  • 二级引证文献(6)
研究主题发展历程
节点文献
机器学习
中文命名体识别
深度神经网络
特征向量
特征提取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
智能系统学报
双月刊
1673-4785
23-1538/TP
大16开
哈尔滨市南岗区南通大街145-1号楼
2006
chi
出版文献量(篇)
2770
总下载数(次)
11
总被引数(次)
12401
论文1v1指导