大数据框架对比:Hadoop、Storm、Spark、Flink、Samza
Hadoop,HBase,Storm,Spark 是什么 Hadoop = HDFS + Hive + Pig […]
Hadoop,HBase,Storm,Spark 是什么 Hadoop = HDFS + Hive + Pig […]
Hive UDF 开发 Hive进行UDF开发十分简单,此处所说UDF为Temporary的function, […]
摘要:许多分布式计算系统都可以实时或接近实时地处理大数据流,本文将对Storm、Spark和Samza等三种A […]
Hadoop是一个很神奇的创造,但它发展过快而表现出一些瑕疵。我爱大象,大象也爱我。不过这世上没什么是完美的, […]
摘要:Storm是一个免费、开源的分布式实时计算系统。从Storm的由来到第一个版本的诞生,从离开Twitte […]
摘要:时至今日,Hadoop已成为最流行的离线数据处理平台,然而它的集群配置起来并不简单。如果你学习Hadoo […]
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, H […]
摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、 […]
摘要:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大 […]
摘要:时至今日,Hadoop已成为最流行的离线数据处理平台,然而它的集群配置起来并不简单。如果你学习Hadoo […]
摘要:借助Google的三大论文,Hadoop打开了低成本海量数据处理之门;同时,借助了开源运动,Hadoop […]
5 一致性事务 Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理 […]
4.1 简介 storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何 […]
Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeepe […]
2.1 Storm基本概念 在运行一个Storm任务之前,需要了解一些概念: Topologies Strea […]
1.1 实时流计算 互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互 […]
在使用Storm过程中,遇到的一些常见问题及解决方法。 1. 发布topologies到远程集群时,出现Nim […]
Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm […]
场景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信 […]
最近遇到了一些storm的问题,在这里总结一下。 一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入s […]
Storm 是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理 […]
Storm有两种操作模式: 本地模式和远程模式 本地模式:你可以在你的本地机器上开发测试你的topology, […]