hi蜗牛慢跑-CSDN博客

原创学习笔记-SortShuffleWriter之writePartitionedFile

前面介绍了SortShuffleWriter insertAll的步骤，主要记录一个task处理rdd中的某个分区中的数据的过程。本篇主要结束将insertAll后的数据生成一个排序好的文件。主要记录了大概的过程以及学习的过程中自己的一些总结(该文章主要是作为自己的学习笔记使用，内容较为简单，可能只能自己看懂吧)...

2020-09-22 21:01:58 54

原创 spark任务提交流程详解

当我们执行spark任务的时候，通过spark ui 我们可以看到stages页面有stage id列表以及job页面下的job列表。这些信息是我们提交spark框架作业后，spark对我们对我们的作业进行了拆分然后按照特定顺序来执行的。下面是结合代码以及自己的理解，梳理下spark任务提交流程spark任务提交流程图spark作业提交流程流程步骤补充说明step5 ：创建...

2020-05-12 19:59:41 80

原创 storm之ack实现机制及源码分析

一. 前言最近公司因为内部项目调动，我们组接收一个维护storm的任务，看代码流程都是通过ACK机制来保证从spout发出tuple在后面的各个环节已经全部执行成功。自己也好奇是怎么实现的呢? 毕竟storm程序同时处理很多个tuple,更要命的是一个tuple可能被切分成多个tuple，而且会切分成多少个tuple并不知道（e.g. 根据某个标识符进行split("特殊标识"...

2019-10-20 17:49:55 359

原创 kafka高性能-内部架构设计

一.前言学习以及使用kafka有一段时间了，有必要对kafka做一些笔记，本片文章重点记录kafka底层的设计，对于一些参数以及client的demo等读者可以自行查看官网二. kafka底层设计我们知道kafka各项指标(吞吐量，延迟性以及持久化等指标)很优，而kafka毕竟是需要将日志持久化到磁盘中的，那么kafka是如何做到的呢？1.顺序写入...

2019-07-21 15:56:03 177

原创 kylin学习笔记

一.前言前段时间，有个项目接触到kylin这门技术，后面公司要求每个人每个季度做一次演讲，于是就结合公司的业务讲kylin（ps:感觉公司这个制度挺好的，虽然是强制的，但是至少督促我们对以前用过的东西做一些总结以及挖深）。这篇blog就把上次讲解的ppt再吵一次饭吧二.OLAP背景企业随着数据量的越来越大，数据分析查询响应时间以及及时性要求也越来越来越高，如果按照传统的ETL方...

2019-02-20 10:45:20 897

原创 hbase之Htable 之put过程

1. hbase 版本： 1.2.02.Connection接口 2.1 在我们操作hbase数据库的时候，首先需要建立连接（Connection）--如下示例代码Configuration configuration = HBaseConfiguration.create();configuration.set("hbase.zookeeper.property.cli...

2018-11-30 22:16:41 1444

原创记录一次基于finagle 开发thrift协议的流程

1.前沿最近需要开发一个RPC服务框架，由于我们公司使用finagle来开发http服务接口，同时finagle支持thfirt协议，打算调研一下。需要解决的问题： 1. 支持分布式部署，即需要部署多个实例 2. 服务QPS达到一定值（这个主要跟业务的架构有关啦，属于本身业务代码的范畴） 3.各实例服...

2018-11-29 10:17:26 886

原创 LRU算法学习总结

一.前沿之前在学习或者工作中，接触到LRU相关的缓存策列，于是想着了解下LRU。在网上google了下相关内容后自己也写了一个简单的LRU实现（当然实现该算法有很多，策列也不一样是固定的，需要根据具体的业务及权衡做出合理的算法策列），写一篇blog简单的记录下二.LRU原理用一个教材案例来演示LRU原理，假设内存只能容纳3个页大小，按照7 、0、1、 2、 0、...

2018-11-18 18:34:44 4218

原创排序算法之堆排序

1.堆堆是具有以下性质的完全二叉树：每个节点都大于或等于其左右孩子节点的值，称之为大顶堆；反之每个节点都小于或等于其左右孩子的值，称之为小顶堆。对于堆的实现，我们可以用数组来表示元素的位置关系，如果一个具有12个节点的堆(小顶堆)如下图所示：那我们使用数组arr[0..11]的形式表示如下：...

2018-10-30 18:47:43 189

原创 hadoop作业运行机制

1.前沿hadoop环境是cdh5.13 ，使用yarn作为资源管理器2. 步骤详情 2.1 作业提交当调用job.submit()/job.waitForCompletion() 时，向资源管理器请求一个应用ID,作为MapReduce作业ID 根据程序配置的输入路径，计算作业的分片大小（该分片大小决定了map个数，map个数以及reduce个数计算方式见另一...

2018-10-08 17:07:54 424

原创 mapreduce 作业中 map/reduce 个数的计算

1. 问题描述当在hadoop集群提交mapreduce作业时，map 和 reduce 的个数是如何计算的？ 2. map个数的计算 2.1 map个数的计算和分片大小（splitSize）是有关系的,所以我们先看看splitSize的计算公式： long splitSize = Math.max(minSize, Math.min(maxSize, blo...

2018-10-08 16:59:40 5676

原创 hbase之setCaching 和 setBatch 和setMaxResultSize

1.前沿关于hbase setCaching ，setBatch 网上搜索一大把资料，主要的目的是以空间换时间，减少RPC请求的次数；之前看到的一些文章不能完全解答自己的一些疑惑比如：不设置setBatch，返回的result 的数量？其对rpc次数的影响？setCaching默认值?其次新版本hbase（HBase-0.98 之后的版本，还没有考证）引入了setMaxResultSiz...

2018-09-18 21:06:16 2442

原创记录一次解决maven jar包冲突的过程

项目介绍项目A需要是用maven来管理jar包，主要需要引用两个依赖依赖1：<groupId>com.pilosa</groupId> <artifactId>pilosa-client</artifactId> <version>1.0.0</version>...

2018-09-10 20:55:23 2588

原创利用redis实现分布式锁

一. 对于分布式的应用，一定程度上会增加处理的速度。但是也会带来一些分布式上的麻烦,比如有个需求：后台程序部署在多台服务器上，client向该后台程序发送参数为用户账号和账号类型的rpc请求，后台程序需要返回该账号对应的身份信息（逻辑很简单，先判断库中有没有该账号信息，有就返回，没有就新生成一个新的身份信息返回）。设想如果多个client 同时发送多个一样的账号和账号类型到后台程序，由于...

2018-08-13 21:11:56 140

原创 JAVA Signal Handing

一 . 前言有一个后台服务，有个时候需要停下服务，关闭的时候需要“优雅”的关闭，保证程序是正常结束的。二 . Signal Handing 处理 1. 案例说明：有三个线程Level1 、 Level2 、 Level3 ，关闭时候需要保证顺序 Level1 结束 -> Level2结束 -> Level3结束 2.案例代码...

2018-07-30 20:33:46 443

原创 spark 向elasticsearch 优化写入数据

一、前言近期有个项目用spark向es(版本5.x)写入数据，该项目是离线任务，每天创建一个index存数据，随着数据量的增大(2亿+，峰值有5亿+)。性能出现问题：写入时间过长，es响应不过来等二、调整策列 1.由于该项目是离线任务，并不是需要实时查询，可以将es中的near real-time search属性设置较高的阈值30s或者-1 。默...

2018-07-14 20:11:08 8740 7

lidaxue_heart的专栏