基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点.而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果.对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状.最后对未来微博信息采集及处理的发展方向进行了展望.
推荐文章
中文微博情感分析研究综述
中文微博
情感分析
情感信息抽取
情感分类
基于多特征融合的中文微博评价对象抽取方法
评价对象
评价对象候选集
句法分析
语义角色标注
支持向量机
基于隐主题分析的中文微博话题发现
中文微博
话题发现
隐主题模型
文本聚类
频繁项集挖掘
基于回应消息的中文微博情感分类方法
中文微博
情感分类
回应消息
支持向量机
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 中文微博文本采集与预处理综述
来源期刊 软件导刊 学科 工学
关键词 数据挖掘 网页爬虫 微博信息采集 文本预处理 文本分词
年,卷(期) 2017,(2) 所属期刊栏目 综述
研究方向 页码范围 186-189
页数 4页 分类号 TP301
字数 4975字 语种 中文
DOI 10.11907/rjdk.162753
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 孙红 上海理工大学光电信息与计算机工程学院 64 316 10.0 12.0
5 孔雪娜 上海理工大学光电信息与计算机工程学院 2 12 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (206)
共引文献  (560)
参考文献  (34)
节点文献
引证文献  (8)
同被引文献  (14)
二级引证文献  (1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(2)
  • 参考文献(0)
  • 二级参考文献(2)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(2)
  • 参考文献(1)
  • 二级参考文献(1)
1990(7)
  • 参考文献(0)
  • 二级参考文献(7)
1991(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(3)
  • 参考文献(1)
  • 二级参考文献(2)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(7)
  • 参考文献(2)
  • 二级参考文献(5)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(4)
  • 参考文献(0)
  • 二级参考文献(4)
2000(11)
  • 参考文献(0)
  • 二级参考文献(11)
2001(11)
  • 参考文献(0)
  • 二级参考文献(11)
2002(7)
  • 参考文献(0)
  • 二级参考文献(7)
2003(13)
  • 参考文献(1)
  • 二级参考文献(12)
2004(23)
  • 参考文献(2)
  • 二级参考文献(21)
2005(15)
  • 参考文献(1)
  • 二级参考文献(14)
2006(12)
  • 参考文献(2)
  • 二级参考文献(10)
2007(21)
  • 参考文献(4)
  • 二级参考文献(17)
2008(9)
  • 参考文献(3)
  • 二级参考文献(6)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(15)
  • 参考文献(2)
  • 二级参考文献(13)
2011(23)
  • 参考文献(5)
  • 二级参考文献(18)
2012(7)
  • 参考文献(1)
  • 二级参考文献(6)
2013(11)
  • 参考文献(1)
  • 二级参考文献(10)
2014(12)
  • 参考文献(4)
  • 二级参考文献(8)
2015(6)
  • 参考文献(1)
  • 二级参考文献(5)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(4)
  • 引证文献(4)
  • 二级引证文献(0)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据挖掘
网页爬虫
微博信息采集
文本预处理
文本分词
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件导刊
月刊
1672-7800
42-1671/TP
16开
湖北省武汉市
38-431
2002
chi
出版文献量(篇)
9809
总下载数(次)
57
论文1v1指导