基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着微博、照片分享等社会化媒体的快速发展,每天产生了大量的短文本内容如评论、微博等,对其进行深入挖掘有重大的应用价值和学术意义.该文选取微博作为例子,详细阐述我们提出的方法.微博信息流因其简短和实时的特性而具有非常大的价值,已经成为市场营销,股票预测、舆情监控等应用的重要信息源.尽管如此,微博内容特征极其稀疏、上下文语境提取困难,使得微博信息的挖掘面临着很大挑战.因此,我们提出一种基于Wikipedia的微博语义概念扩展方法,通过自动识别那些与微博信息语义相关的Wikipedia概念来丰富它的内容特征,从而有效提高微博信息数据挖掘和分析的效果.该文工作首先通过可链接性剪枝、概念关联和消歧,发现微博信息中重要的n-gram所对应的Wikipedia概念;其次,采用基于概念文档关联矩阵的NMF分解(非负矩阵分解)方法获取Wikipedia概念之间的语义近邻,为微博信息扩展相关的语义概念.基于TREC 2011的微博数据集和Wikipedia 2011数据集进行实验,与已有两个相关研究工作比较,该文提出的方法取得了较好的效果.
推荐文章
中文短文本语法语义相似度算法
语法语义相似度
语句相似性计算
HowNet
语料库
语法分析
语义分析
相似度计算
基于自身特征扩展的短文本分类方法
短文本
稀疏
信号弱
扩展
离散度
相关度
社会化短文本及其技术研究
社会化短文本
热点话题检测
主题分析
微博
基于维基百科的短文本语义扩展方法研究
短文本
非负矩阵分解
锚文本
语义相似度
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 社会媒体短文本内容的语义概念关联和扩展
来源期刊 中文信息学报 学科 工学
关键词 短文本 概念 非负矩阵分解 锚文本 语义相似度 概念消歧 Wikipedia
年,卷(期) 2014,(4) 所属期刊栏目 语言分析与生成
研究方向 页码范围 21-28
页数 8页 分类号 TP391
字数 7555字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学旗 中国科学院计算技术研究所 160 4858 31.0 67.0
2 王宇平 西安电子科技大学计算机学院 128 1633 22.0 34.0
3 刘悦 中国科学院计算技术研究所 56 565 12.0 22.0
4 任彦 8 42 4.0 6.0
5 肖永磊 中国科学院计算技术研究所 1 10 1.0 1.0
9 刘盛华 中国科学院计算技术研究所 3 19 3.0 3.0
10 赵文静 西安电子科技大学计算机学院 1 10 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (4)
参考文献  (3)
节点文献
引证文献  (10)
同被引文献  (14)
二级引证文献  (6)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(3)
  • 引证文献(3)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(6)
  • 引证文献(3)
  • 二级引证文献(3)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
短文本
概念
非负矩阵分解
锚文本
语义相似度
概念消歧
Wikipedia
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导