`
coolsunchen
  • 浏览: 61866 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

etl增量处理好方案--明略Hadoop实践之道

 
阅读更多
1.基于数据库操作日志的实时增量数据同步方案:
优势 .增量通道建立
 数据秒级同步
 性能消耗低,目标数据无需重做
 数据一致性好,支持主键更新
 试用场景多,叧要求源表有主键戒唯一索引

2. hadoop上加入权限管理方案


3. 百亿数据、百万用户的OLAP
基于Hbase支撑OLAP需求
    原始数据同步到Hbase构建数据表 根据用户查询的各个维度,通过MapReduce迚行预构建查询索引 索引的key为纬度的不同组合 索引的value中存入用户常用的各种metric计算结果

优势
   百亿级的数据在秒级甚至亚秒级返回结果
   基于Hbase的实现轻松支撑高并发请求
   可视化配置、灵活定义的索引
   源自于Hadoop系统的超强扩展能力
缺点:
   新的增量数据如何统计????   没有实时性吧????
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics