基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博客是Web2.0出现以来的一个新生概念.著名的Twitter系统是微博客中具有代表性的一个.其全球用户已经超过1.6亿,在世界范围内具有重要影响力:目前知名政治家、社会名流和大企业几乎都是Twitter的用户.Twitter系统中的消息小于0个字符,而且语法不规范.同时,由于Twitter允许用户以多种格式自由转发消息,系统中存在大量内容重复或近似重复的消息.重复消息的存在加重了系统存储的负担,对用户阅读、理解以及分析消息的内容也造成了不利影响.该文分析了Twitter系统中转发消息的语法特点,并利用这些语法特点提取规则,把转发的消息变成普通消息.该文还提出统计字符种类和最短编辑距离两种字符串距离计算的方法以判定Twitter中近似重复的消息.该文还分析了Twitter消息发送的方式以及不同登录方式的消息特征.实验结果表明,两种方法具有扩展性强、实现简单、效率高等优点,能够有效地检测Twitter上的信息重复现象.
推荐文章
Twitter中重复消息的分析和处理
推特
微博
Simhash
短文本去重
关系数据库中近似重复记录的识别
数据清理
重复记录识别
字符串匹配
数据仓库
消息重复型ARINC429总线事件消息包机载实时处理技术研究
飞行试验
航空总线
机载测试
遥测
安全监控
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Twitter中近似重复消息的判定方法研究
来源期刊 中文信息学报 学科 工学
关键词 微博客 Twitter 重复消息
年,卷(期) 2011,(1) 所属期刊栏目
研究方向 页码范围 20-27
页数 分类号 TP391
字数 8073字 语种 中文
DOI 10.3969/j.issn.1003-0077.2011.01.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 程学旗 中国科学院计算技术研究所网络重点实验室 160 4858 31.0 67.0
2 刘悦 中国科学院计算技术研究所网络重点实验室 56 565 12.0 22.0
3 曹鹏 中国科学院计算技术研究所网络重点实验室 12 112 4.0 10.0
7 李静远 中国科学院计算技术研究所网络重点实验室 5 66 3.0 5.0
8 满彤 中国科学院计算技术研究所网络重点实验室 2 53 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (48)
同被引文献  (66)
二级引证文献  (396)
1970(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2011(2)
  • 引证文献(2)
  • 二级引证文献(0)
2012(19)
  • 引证文献(10)
  • 二级引证文献(9)
2013(58)
  • 引证文献(5)
  • 二级引证文献(53)
2014(98)
  • 引证文献(9)
  • 二级引证文献(89)
2015(85)
  • 引证文献(5)
  • 二级引证文献(80)
2016(55)
  • 引证文献(3)
  • 二级引证文献(52)
2017(61)
  • 引证文献(6)
  • 二级引证文献(55)
2018(38)
  • 引证文献(5)
  • 二级引证文献(33)
2019(18)
  • 引证文献(3)
  • 二级引证文献(15)
2020(10)
  • 引证文献(0)
  • 二级引证文献(10)
研究主题发展历程
节点文献
微博客
Twitter
重复消息
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
中文信息学报
月刊
1003-0077
11-2325/N
16开
北京海淀区中关村南四街4号
1986
chi
出版文献量(篇)
2723
总下载数(次)
5
总被引数(次)
45413
论文1v1指导