基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
海量流数据的分析与处理是信息社会面对的一个基本问题.各种传感器汇聚的数据是流数据,人们发出的短信对于移动通信运营商的数据中心来说是流数据,人们写的微博对于新浪或者腾讯来说是流数据,搜索引擎网页爬取子系统传给后台处理的数据也可以看成是流数据.尽管它们的应用背景不同,但有共同的特征,即存在一个网络上的汇聚节点,从该节点的角度看,数据源源不断地到来.通常,这些数据会以某种特定的格式缓存起来,待某个特定的后续系统处理.启发本文工作的问题是:那些数据常常是有多方面价值的,有些甚至是当前没有想到的,我们有必要同时开放个流数据接口供未来可能出现的新应用调用.该接口应该具有如下特征:(1)向外输出原始流数据; (2)允许其他(多个)应用程序动态接入和退出; (3)接入的应用程序的行为不影响数据搜集和最初设计的后续系统的功能.本文以连续运行了10年以上的天网搜索引擎和中国Web博物馆(WebInfomall)为例,讨论其网页搜集子系统的改造以适应上述需求,IP多播是采用的基本技术.在介绍了设计思想和实现要点后,我们也给出 个“新应用”的实际例子.这样一个接口的实现,为各种网页流信息分析应用打开了一扇窗口.该接口的设计思想也可以用于其他流数据汇聚系统中.
推荐文章
一种基于网络请求的数据访问接口设计与实现
数据交易系统
网络请求
数据访问接口
分层化
JSON
一种IMA架构下远程数据接口单元的设计与实现
综合化模块化航空电子
远程数据接口单元
PowerPC
FPGA
一种CAD数据接口的思路及实现
CAD
接口
数据转换
图形交换文件
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种流数据多播接口的设计、实现与应用
来源期刊 集成技术 学科
关键词 流数据 多播 网页抓取 API 松耦合
年,卷(期) 2012,(1) 所属期刊栏目 互联网与物联网
研究方向 页码范围 43-47
页数 5页 分类号
字数 6535字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张帆 北京大学信息科学与技术学院 262 1171 14.0 21.0
2 李晓明 北京大学信息科学与技术学院 127 2603 27.0 49.0
3 谢正茂 北京大学信息科学与技术学院 4 219 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
流数据
多播
网页抓取
API
松耦合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
集成技术
双月刊
2095-3135
44-1691/T
大16开
深圳市南山区西丽深圳大学城学苑大道1068号
2012
chi
出版文献量(篇)
677
总下载数(次)
2
总被引数(次)
1808
论文1v1指导