基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词.本文利用变体词所在文本的时间和语义,结合变体词词性,提出了一种时间和语义结合的方法获取候选目标词,然后提出基于字词联合的词向量方法对候选目标词排序.我们的方法不需要额外的标注数据,实验结果表明,相比于当前最好的方法在准确性上具有一定的提升,针对与目标词存在相同的字的变体词其性能更好.
推荐文章
基于有效上下文信息的变体词还原方法
变体词
变体词还原
自编码器
有效上下文信息
词嵌入
神经网络
基于 ISO/IEC 11179的规范化概念系统模型研究
概念模型
规范化
数据元
11179
形式概念
MDR
血站规范化建设
质量管理体系
血站质量管理规范
血站规范化建设
生态鲢鱼规范化养殖技术
生态
鲢鱼
规范化
养殖
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于字词联合的变体词规范化研究
来源期刊 计算机系统应用 学科
关键词 变体词 变体词规范化 社交网络 词向量 字词联合训练
年,卷(期) 2017,(10) 所属期刊栏目 专论·综述
研究方向 页码范围 29-35
页数 7页 分类号
字数 4729字 语种 中文
DOI 10.15888/j.cnki.csa.005979
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王斌 中国科学院信息工程研究所 325 6645 42.0 69.0
2 李锐 63 1219 18.0 34.0
3 沙瀛 14 118 6.0 10.0
4 邱泳钦 中国科学院信息工程研究所 3 3 1.0 1.0
5 施振辉 中国科学院信息工程研究所 1 1 1.0 1.0
6 梁棋 中国科学院信息工程研究所 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (8)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1954(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
变体词
变体词规范化
社交网络
词向量
字词联合训练
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
论文1v1指导