7 大数据技术架构

尚未进行身份认证

Focus on Bigdata

等级
TA的排名 15w+

Spark速度比MapReduce快,不仅是内存计算

作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会在各类文章中看到类似这样的...

2020-05-27 08:05:00

干货 | Kafka 内核知识梳理,附思维导图

前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识。文...

2020-05-24 13:57:49

HBase原理 | HBase Region 运行状态学习

HBase为每个Region维护一个状态,并将该状态保留在hbase:meta中。hbase:meta本身的Region状态保留在ZooKeeper中。可以在Master Web UI中...

2020-05-24 13:57:49

HBase原理 | HBase Compaction介绍与参数调优

我们知道,数据达到HBase服务端会写WAL-写Memstore,然后定期或满足一定条件时刷写磁盘生成一个HFile文件,随着时间推移生成的HFile会越来越多,将会影响HBase查询性...

2020-05-22 23:02:11

重磅!Apache Flink 1.11 功能前瞻来啦

整理| 高赟、程鹤群Review | 王治江Flink 1.11 版本即将正式宣告发布!为满足大家的好奇与期待,我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分...

2020-05-22 23:02:11

Hudi原理 | Apache Hudi 典型应用场景介绍

1.近实时摄取将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中,一般使用混合提取工具并以零散的方式解决该问题,尽管这些数据对组织是...

2020-05-21 08:20:00

HBase实践 | 使用 Docker 快速上手 HBase

前言:本文主要讲述了如何使用Docker快速上手HBase,省去繁杂的安装部署环境,直接上手,小白必备。适合HBase入门学习及简单代码测试。1. Docker 安装参考地址:https...

2020-05-21 08:20:00

HBase+ElasticSearch二级索引实践总结

前言:还记得那是2018年的一个夏天,天气特别热,我一边擦汗一边听领导大刀阔斧的讲述自己未来的改革蓝图。会议开完了,核心思想就是:我们要搞一个数据大池子,要把公司能灌的数据都灌入这个大池...

2020-05-19 08:20:00

再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apach...

2020-05-19 08:20:00

Hive on Spark 运行于Yarn模式下如何调优

Hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。udf函数也是全部支持。本文主要是想...

2020-05-15 08:23:08

HBase最佳实践 | 聊聊HBase核心配置参数

前言:参数之于软件系统就像按钮之于工程系统,绝大多数工程师对于工程系统的认知就是首先从这些按钮来的,而且通常来说按钮越多,系统就会越复杂。认知过程无非三个阶段,首先弄明白这些按钮都用来控...

2020-05-12 08:00:00

认识 Delta Lake:让数仓进化到数据湖

百花齐放的大数据生态17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在...

2020-05-10 12:23:49

Apache Hudi:剑指数据湖的增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服...

2020-05-10 12:23:49

Elasticsearch对垒8大竞品技术,孰优孰劣?

作者介绍李猛(ynuosoft),Elastic-stack产品深度用户,ES认证工程师,2012年接触Elasticsearch,对Elastic-Stack开发、架构、运维等方面有深...

2020-05-08 08:00:00

Hadoop社区比 Ozone 更重要的事情

作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹...

2020-05-07 05:27:02

Redis 6.0 稳定版发布,正式支持多线程

近期Redis 6.0.0稳定版发布了,是Redis有史以来最大的版本, Redis的作者在博客中介绍了该版本中的新特性,此外除了这些新特性外,Redis 6也正式支持多线程!意味着从此...

2020-05-06 08:39:19

HBase实践 | HBase IO优化与高可用建设

作者:陈旭往期回顾:HBase实践 | HBase内核优化与吞吐能力建设CAP能力模型在CAP能力模型表现方面,hbase主要是面向CP的应用系统,针对数据写入可以满足强一致性需求,从客...

2020-04-29 08:24:27

MapReduce Shuffle 和 Spark Shuffle 结业篇

Shuffle简介Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输...

2020-04-28 08:00:00

Kafka是如何利用零拷贝提高性能的

Kafka 在执行消息的写入和读取这么快的原因,其中的一个原因是零拷贝(Zero-copy)技术,下面我们来了解一下这么高效的原因。传统的文件读写传统的文件读写或者网络传输,通常需要将数...

2020-04-26 21:07:01

HBase最佳实践 | 合理的Region数量与大小

Region数量通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下:HBase的一个特性MSLAB,...

2020-04-24 11:00:00

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。