`
coolsunchen
  • 浏览: 61746 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

开源实时大数据分析系统Druid

 
阅读更多
https://github.com/metamx/druid

http://www.csdn.net/article/2014-10-30/2822381

Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。

2014年10月25日,由eBay、CSDN共同举办的“大数据峰会”在上海举行,Druid创始人Eric Tschetter发表了演讲“Druid之旅,大数据实时分析数据存储框架”,之后Eric接受了CSDN的专访。

很巧,在阿里有一个开源的Java数据库驱动也叫Druid,阿里Druid项目的负责人温少也曾接受过CSDN的采访。
Eric Tschetter本科就读于德克萨斯大学奥斯汀分校,在东京国立情报学研究所拿到了计算机科学的硕士学位。之后在硅谷,Eric加入了Marc Andreessen创办的社交网络平台公司Ning(这个名字取自中文“宁”的拼音);后来Eric又加入了LinkedIn,参与了“People You May Know”产品;离开LinkedIn后,Eric成为了Metamarkets的第一位全职雇员,并在那里开发Druid。目前,Eric为一家非盈利组织Tidepool工作,为糖尿病人提供开源的医疗数字化应用。
Druid是一个开源的分布式实时处理系统,旨在快速处理大规模的数据,并能做到快速查询和分析。为烧钱的大数据处理,提供一种更廉价的选择,目前来说是这个领域唯一的开源产品。Druid还将一些基本功能UI化,为非技术人员提供服务。说到与Druid最类似的项目,Eric认为是Google的PowerDrill。

MapReduce和BigTable的论文催生了大数据处理的事实标准Hadoop。Dremel和PowerDrill问世后,很多人都在好奇有哪些开源大数据技术又要兴起,Druid会是其中之一吗?
应用场景

Druid应用最多的是类似于Metamarkets中的应用场景——广告分析,互联网广告系统监控、度量和网络监控。并且eBay也已经计划将Druid用于生产环境中。

开发团队

目前Druid被托管在GitHub上,有44个contributor,1000+的关注,Druid 的主要贡献者,包括Metamarkets,Netflix、Yahoo和一些硅谷的创业公司。Druid 的开发人员通过Druid 论坛互动和支持Druid 的开发。笔者刚刚查看了Druid的Google Group,最近一直保持着比较活跃的讨论。

Eric介绍说,每当他们学到新的东西或有新的想法,总会尽快去实践检验。所以自2011年3月第一条代码提交至今,Druid有了很大的改进。比如数据的存储方式,大概变化了9次,查询流程大概变化了3-4次,各个节点间的相互协调大概变化了3次,但是每个节点制作一件事情的原则没有变化过。Eric说未来可能还会有更多的变化,但是基本的架构不会改变。
分享到:
评论

相关推荐

    Druid创始人EricTschetter详解开源实时大数据分析系统Druid

    Druid是一个为大型冷数据集上实时探索查询而设计的开源数据分析和存储系统,提供极具成本效益并且永远在线的实时数据摄取和任意数据处理,并且在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常...

    Druid实时大数据分析原理

    Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持...

    Druid实时大数据分析

    Druid 是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十亿行级别的表进行任意的探索...

    Druid 是一个用于大数据实时查询和分析的高容错高性能开源分布式系统

    Druid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。 Druid 具有以下主要特征: 为分析而设计——Druid 是为 OLAP 工作流的探索性分析...

    阿里 数据源 druid1.1.10.jar/resource.jar/doc.jar

    Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。Druid是目前最好的数据库连接池。 压缩包内包含jar包、源码、doc资源。共同学习

    Apache Druid:高性能实时分析数据库-开源

    Druid 专为快速临时分析、即时数据可见性或支持高并发性很重要的工作流而设计。 因此,Druid 通常用于为需要交互式、一致用户体验的 UI 提供动力。 Druid 从 Kafka 和 Amazon Kinesis 等消息总线流式传输数据,并从 ...

    druid-master.zip

    Druid 是为大型数据集上实时探索查询的引擎,提供专为 OLAP 设计的开源分析数据存储系统,它的设计意图是在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。它也可以用于后台用例,但设计决策...

    滴滴出行实时计算系统架构及实践

    此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统...

    Druid是一个高性能实时分析数据库 德鲁伊的主要附加值是减少洞察和行动的时间

    Druid是一个高性能实时分析数据库。德鲁伊的主要附加值是减少洞察和行动的时间。 Druid是为快速查询和摄取非常重要的工作流而设计的。Druid擅长为UI供电、运行操作(特别)查询或处理高并发性。将Druid视为各种...

    druid:Apache Druid:高性能实时分析数据库

    | | | | |Apache德鲁伊Druid是高性能的实时分析数据库。 德鲁伊的主要增值是减少洞察力和采取行动的时间。 Druid专为真正需要快速查询和摄取的工作流而设计。 Druid擅长于为UI提供动力,运行可操作(临时)查询或...

    大数据开源框架集锦.pdf

    Druid 实时⼤数据分析引擎 Elastic Search 分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎 9 数据收集 Flume 分布式海量⽇志采集、聚合和传输系统 Logstash 具有实时管道功能的开源数据收集引擎 10 ...

    Druid数据库连接示范.rar

    Druid是阿里巴巴的一个开源项目,作为一个优秀的数据库连接池,Druid提供了优秀的稳定性,并且在性能方面比其他数据库连接池提高了很多,最重要的是Druid提供了实时监控的功能,如数据源监控、SQL监控、SQL防火墙...

    druid jar包

    Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。Druid是目前最好的数据库连接池。

    开源的分布式内存文件系统 Tachyon.zip

     当然,AMPLab并不是第一个对HDFS提出质疑的组织,同时也有很多商业版本可供选择,像Quantcast就自己开发了开源文件系统,声称其在运行大规模文件系统时速度更快、更高效。诚然,AMPLab所做的工作就是打破现有商业...

    druid,面向列的分布式数据存储是支持交互式应用程序的理想选择.zip

    apache druid(孵化)是用于事件驱动数据的高性能分析数据存储。

    eBay 打造基于 Apache Druid 的大数据实时监控系统

    Apache Druid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式时序数据库系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。这篇文章主要介绍了eBay 如何打造基于 Apache Druid 的大数据实时...

    java开源包8

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    apache-druid-chinese-docs:Apache Druid中文文档

    Apache Druid是一个高性能的实时分析型数据库 [removed] (adsbygoogle = window.adsbygoogle || []).push({}); [removed] 云原生、流原生的分析型数据库 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时...

Global site tag (gtag.js) - Google Analytics