Storm与Spark Streaming比较

Storm 和Spark Streaming 都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件，而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟，而Spark Streaming则有几秒钟的延迟。容错、数据保证在容错数据保证方面的权衡是，Spark Streaming提供了更好的支持容错状态计算。在Storm中,每个单独的记录当它通过系统时必须被跟踪，所以Storm能够至少保证每 ...

2015-09-14 16:58
浏览 345
评论(0)
分类:开源软件

etl增量处理好方案--明略Hadoop实践之道

1.基于数据库操作日志的实时增量数据同步方案：优势 .增量通道建立  数据秒级同步  性能消耗低，目标数据无需重做  数据一致性好，支持主键更新  试用场景多，叧要求源表有主键戒唯一索引 2. hadoop上加入权限管理方案 3. 百亿数据、百万用户的OLAP 基于Hbase支撑OLAP需求 原始数据同步到Hbase构建数据表根据用户查询的各个维度，通过MapReduce迚行预构建查询索引索引的key为纬度的不同组合索引的value中存入用户常用的各种metric计算结果优势 百亿级的数据在秒级甚至亚秒级返回结果基于Hbase的实现轻松支撑高并 ...

2015-09-09 15:35
浏览 334
评论(0)
分类:行业应用

全自动部署及打造千万并发的云平台

github + jenkins + ansible自动部署 puppet，saltstack 也可以替代ansible http://www.infoq.com/cn/presentations/build-millions-concurrent-cloud-platform?utm_source=infoq&utm_medium=videos_homepage&utm_campaign=videos_row1 移动即时通讯能力是 APP 社交化的核心需求。环信是国内最领先的即时通讯云平台，只需在手机端加入几行代码就可以帮助 APP 快捷的接入类似微信的即时通讯功能 ...

2015-08-25 11:28
浏览 424
评论(0)
分类:开源软件

docker持续部署,Git和Jenkins配合自动部署，puppet

CI： continuous integration 持续集成 Git和Jenkins配合自动构建部署也可以puppet，saltstack完成自动部署 http://www.infoq.com/cn/articles/effective-ops-part-06 前言关于Docker的文章铺天盖地，但精品文章往往翻译居多。都说Docker天生适合持续集� ...

2015-08-20 11:53
浏览 1953
评论(0)
分类:行业应用

spark build问题

http://spark.apache.org/docs/latest/building-spark.html#building-with-buildmvn mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package mvn -e -DargLine=-Xmx1024m -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package -e查询具体error 看到错误后再用eclipse配置jvm参数编译： http://juve ...

2015-08-17 17:42
浏览 358
评论(0)
分类:研发管理

Facebook移动端照片预览背后的技术

当在Facebook移动端上浏览某个人的用户资料或页面时，首先看到的往往是图片。这些图片是构成Facebook体验不可缺少的一部分，但有时候，图片的下载与展示非常慢，在低速或移动网络中尤其如此。而在像印度这样的发展中国家市 ...

2015-08-17 12:00
浏览 276
评论(0)
分类:行业应用

亿级规模的Elasticsearch优化实战

本次分享主要包含两个方面的实战经验：索引性能和查询性能。一. 索引性能（Index Performance）首先要考虑的是，索引性能是否有必要做优化？索引速度提高与否？主要是看瓶颈在什么地方，若是 Read DB（产生DOC）的速度比较� ...

2015-08-14 11:36
浏览 1944
评论(0)
分类:开源软件

全网访问速度优化: 前端、网络、后端optimize

http://www.infoq.com/cn/presentations/speed-optimization-of-whole-network-access?utm_source=infoq&utm_medium=videos_homepage&utm_campaign=videos_row1 过去几年中，曾以项目负责人、成员、咨询顾问等形式参与过数次各领域国内 TOP3 公司的全网访问速度优化项目。从 IDC 选择到网页前端及服务端性能优化，再到如今开始参与客户端优化，走过很多弯路也踩过很多坑。回顾以往，总结了全局或部分地区打开速度偏慢等问题常见的解决方案和治理思路。 ...

2015-08-13 11:52
浏览 440
评论(0)
分类:行业应用

count、sum大数据统计分析平台架构---数据库架构变迁

http://www.infoq.com/cn/presentations/talkingdata-database-architecture-changes 在大数据统计分析平台里，数据库占据了举足轻重的地位。基于这些数据库，数据分析人员或者进行随机查询，或者进行大范围数据查询，或者进行多维交叉分析。传统的关系型数据库，越来越显得力不从心。近年在数据库技术领域，NoSQL DB雨后春笋大量涌现。 TalkingData作为国内最大的移动应用统计分析平台，在多年的发展之中，经历了三个阶段。三代架构演进过程中，我们研究、使用了大量开源、商业数据库。通过将这些数据库的组合、协作，系统可以满足大数 ...

2015-08-11 12:17
浏览 359
评论(0)
分类:行业应用

多IDC部署的电商网站的缓存管理

http://www.infoq.com/cn/presentations/cache-management-of-multi-idc-deployment-in-electric-business-website 缓存是网站应对高并发和高流量的关键技术之一；在带来性能提升的同时，缓存的引入也带来了复杂性。对于电商网站，商品的价格，库存是动态变化的数据。当缓存和数据库在多个IDC内部署时，数据的一致性维护成为了突出的问题。围绕这些课题，一号店设计并开发了一套跨IDC的缓存失效机制以应对这些挑战。这套方案在刚刚过去的双11购物节中已经得到了验证。

2015-08-10 11:33
浏览 372
评论(0)
分类:行业应用

hadoop-10150 Hadoop cryptographic file system

https://issues.apache.org/jira/browse/HADOOP-10150

2015-08-10 10:47
浏览 403
评论(0)
分类:开源软件

搜狐基于Spark的新闻和广告推荐实战

http://www.csdn.net/article/2015-07-31/2825353 我今天的分享主要偏应用层面的，介绍一下我们团队在新闻推荐和广告方面的一些心得。从业务层面来讲，我们主要接触了广告和新闻推荐。它们相似点是都可以看做一个点击率估计的任务。� ...

2015-08-03 10:25
浏览 429
评论(0)
分类:开源软件

华为电信软件技术架构演进:从c到java到soa 到云平台

http://www.infoq.com/cn/articles/practice-of-java-nio-communication-framework 1. 华为电信软件技术架构演进 1.1. 电信软件从广义上看电信软件的范围非常广，细分实际可以分为两大类：系统软件和业务应用软件。系统软件包括路由器底层的信令机软件、手机操作系统等，业务应用软件主要包括客户关系管理CRM、网上营业厅、融合计费OCS和各类消息网关，例如短信网关、彩信网关等。本文重点介绍电信业务应用软件的技术变迁历史，以及华为电信软件架构演进和Java NIO框架在技术变迁中起到的关键作用。相关厂商内容 A ...

2015-07-31 14:23
浏览 405
评论(0)
分类:行业应用

小米对开源opensource的使用与参与之道

小米一直都对开源非常重视，也一直都身体力行的投入其中，时至今日，开源软件/系统在小米的各个业务线都扮演着越来越重要的角色，包括hadoop，hbase，storm，spark，zookeeper，kafka，impala，hive等等，都在小米有着广泛和深入的使用，另一方面，小米也在使用/改造这些系统更好的为己所用的同时，将小米对这些系统的改进及时/积极的反馈回社区，可以说小米已经摸索出了一条适合自己的参与和利用开源的路，本演讲会以云平台为例，结合一些实际的场景，详细讲述小米的开源之道。 http://www.infoq.com/cn/presentations/the-xiaomi-pa ...

2015-07-28 15:14
浏览 336
评论(0)
分类:开源软件

mysql cluster 优缺点

优点： 1) 99.999 ％的高可用性 2) 快速的自动失效切换 3) 灵活的分布式体系结构，没有单点故障 4) 高吞吐量和低延迟 5) 可扩展性强，支持在线扩容缺点： 1) 存在很多限制，比如：不支持外键，数据行不能超过8K（不包括BLOB和text中的数据） 2) 部署、管理、配置很复杂 3) 占用磁盘空间大，内存大 4) 备份和恢复不方便 5) 复杂的sql查询性能一般 http://blog.i ...

2015-07-03 14:57
浏览 916
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论