基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
中文汉字在横向、纵向展开具有二维的复杂结构.现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示.为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量.将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比.实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%.
推荐文章
基于生成式对抗网络的中文字体风格迁移
风格迁移
生成式对抗网络
卷积神经网络
残差网络
深度学习
桌面云应用中文字增强技术的初步研究
桌面云
文字检测
最大稳定极值区域
Adaboost算法
C4.5决策树
民间服饰中文字纹样形成的影响因素
文字纹样
民间服饰
影响因素
远程学习中文字教材的活动设计
远程文字教材
活动设计
案例分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于笔画中文字向量模型设计与研究
来源期刊 中文信息学报 学科 工学
关键词 字向量 笔画 连续词袋模型
年,卷(期) 2019,(5) 所属期刊栏目 语言分析与计算
研究方向 页码范围 17-23
页数 7页 分类号 TP391
字数 4680字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 林杰 中国人民大学信息学院 14 29 4.0 5.0
2 俞敬松 北京大学软件与微电子学院 14 43 3.0 6.0
3 赵浩新 北京大学软件与微电子学院 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (4)
同被引文献  (10)
二级引证文献  (1)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(5)
  • 引证文献(4)
  • 二级引证文献(1)
研究主题发展历程
节点文献
字向量
笔画
连续词袋模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导