12 Mr-Bruce

尚未进行身份认证

我要认证

专注于大数据系统研发

等级
TA的排名 1w+

让业务数据流动起来~

本文探讨了一种优雅的、没有倾入性的获取核心业务数据对应的过程型数据的通用解决方案。

2020-07-12 22:11:57

大数据的一生一世——谈数据冷热分离技术

本文探讨了大数据冷热分离的诸多解决方案,包括冷热分离异构系统、冷热分离同构系统。

2020-06-14 23:31:45

再谈Spark下写S3文件的File Output Committer问题

本文回顾了Spark写文件的机制,探讨了AWS EMRFS S3-optimized Committer的工作原理、存在的数据一致性问题以及如何解决。

2020-05-03 17:11:38

Parquet的那些事(三)嵌套数据模型

本文从嵌套结构的特性出发,逐步探讨了Parquet是如何支持嵌套结构存储的。

2020-04-12 23:05:09

Spark最佳实践之如何有效分配资源

本文主要探讨如何在AWS EMR下为Spark有效分配资源,从而充分利用一个集群的所有可用资源。

2020-03-28 22:39:20

Parquet的那些事(二)Spark中的Schema兼容问题

本文探讨了在Spark中经常会遇到的Parquet Schema兼容的问题,分析了文件加载和表加载的细节与Schema兼容的规则。

2020-03-14 20:10:50

Parquet的那些事(一)基本原理

本文阐述了Parquet的价值、基本文件结构、Predicate Pushdown Filter特性以及常用的工具。

2020-03-09 00:47:29

探秘HDFS —— 发展历史、核心概念、架构、工作机制 (上)

本文作为“探秘HDFS”上篇,主要分享Hadoop发展历史、HDFS核心概念和整体架构。

2019-09-01 18:28:16

谈Spark下并行执行多个Job的问题

本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。

2019-03-20 19:08:03

聊一聊Spark写文件的机制——如何保证数据一致性

本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。

2019-03-03 13:36:27

Elasticsearch最佳实践之Index与Shard设计

作为专栏的第三篇,本文主要探讨实际应用中Index与Shard的设计方法。主要包括这样几方面:基于时间的Index设计、Mapping设计技巧、巧妙的Alias、Shard分配原则、整体思路。

2019-01-22 16:44:53

当Spark遇上Zeppelin

本文将会发表在GitChat上面,主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具,里面有很多解释器,透过这些解释器可以利用相应的引擎完成数据分析,Spark便是其中一种。

2019-01-13 14:19:09

详解Spark Streaming的Graceful Shutdown

本文主要探讨Spark Streaming的Graceful Shutdown,重点为三个问题:为什么需要Graceful Shutdown?如何触发Graceful Shutdown?Graceful Shutdown过程是怎样的?

2019-01-06 23:22:08

Elasticsearch最佳实践之核心概念与原理

作为专栏文章的第二篇,本文从数据组织、数据分布、集群角色、数据写入与存储结构多个方面对Elasticsearch的核心概念进行整理,尽可能由浅入深的交代清楚每个概念。

2018-12-03 22:29:58

谈Elasticsearch下分布式存储的数据分布

本文探讨了Elasticsearch是如何让数据均衡的分布在不同的节点上,主要有三个影响:节点位置、磁盘空间、单个节点的Index和Shard个数。

2018-10-30 22:25:45

聚合查询越来越慢?——详解Elasticsearch的Global Ordinals与High Cardinality

本文结合笔者在实践过程中遇到的由High Cardinality引起Global Ordinals构建过慢,从而导致聚合查询变慢的问题,阐述了Elasticsearch中两个核心概念:Global Ordinals和High Cardinality。

2018-10-22 17:42:37

Elasticsearch最佳实践之使用场景

本文围绕Elasticsearch的核心特征:搜索与分析,探讨其常见的业务场景:ELK日志系统、数据聚合分析、业务内搜索,以及集群建设的选择。

2018-10-08 20:31:30

谈一谈Elasticsearch的集群部署

Elasticsearch是一个分布式的搜索引擎和数据分析引擎。本文重点谈一谈Elasticsearch的集群节点相关问题,搞清楚这些是进行Elasticsearch集群部署和拓扑结构设计的前提。

2018-09-30 16:17:39

打造私人搜书系统之系统设计

作者利用业余时间打造了一个自己的搜书系统,基本的思路是:从各个小说网站爬取相关的书籍信息,通过一个手机客户端来阅读小说。本文将从系统设计的角度,来谈谈设计的思路和踩过的坑。

2017-08-26 19:11:11

创业公司做数据分析(六)数据仓库的建设

本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于Airflow的任务流管理系统。

2017-02-02 19:36:58

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力探索
    原力探索
    参与《原力计划【第二季】——打卡挑战》的文章入选【每日精选】的博主将会获得此勋章。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。