自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 学习笔记-SortShuffleWriter之writePartitionedFile

前面 介绍了SortShuffleWriter insertAll的步骤,主要记录一个task处理rdd中的某个分区中的数据的过程。 本篇主要结束将insertAll后的数据生成一个排序好的文件。主要记录了大概的过程以及学习的过程中自己的一些总结(该文章主要是作为自己的学习笔记使用,内容较为简单,可能只能自己看懂吧)...

2020-09-22 21:01:58 54

原创 spark任务提交流程详解

当我们执行spark任务的时候,通过spark ui 我们可以看到stages页面有stage id列表以及job页面下的job列表。这些信息是我们提交spark框架作业后,spark对我们对我们的作业进行了拆分然后按照特定顺序来执行的。下面是结合代码以及自己的理解,梳理下spark任务提交流程spark任务提交流程图spark作业提交流程流程步骤补充说明step5 :创建...

2020-05-12 19:59:41 78

原创 storm之ack实现机制及源码分析

一. 前言 最近公司因为内部项目调动,我们组接收一个维护storm的任务,看代码流程都是通过ACK机制来保证从spout发出tuple在后面的各个环节已经全部执行成功。自己也好奇是怎么实现的呢? 毕竟storm程序同时处理很多个tuple,更要命的是一个tuple可能被切分成多个tuple,而且会切分成多少个tuple并不知道(e.g. 根据某个标识符进行split("特殊标识"...

2019-10-20 17:49:55 358

原创 kafka高性能-内部架构设计

一.前言 学习以及使用kafka有一段时间了,有必要对kafka做一些笔记,本片文章重点记录kafka底层的设计,对于一些参数以及client的demo等读者可以自行查看官网二. kafka底层设计 我们知道kafka各项指标(吞吐量,延迟性以及持久化等指标)很优,而kafka毕竟是需要将日志持久化到磁盘中的,那么kafka是如何做到的呢?1.顺序写入...

2019-07-21 15:56:03 176

原创 kylin学习笔记

一.前言前段时间,有个项目接触到kylin这门技术,后面公司要求每个人每个季度做一次演讲,于是就结合公司的业务讲kylin(ps:感觉公司这个制度挺好的,虽然是强制的,但是至少督促我们对以前用过的东西做一些总结以及挖深)。这篇blog就把上次讲解的ppt再吵一次饭吧二.OLAP背景企业随着数据量的越来越大,数据分析查询响应时间以及 及时性要求也越来越来越高,如果按照传统的ETL方...

2019-02-20 10:45:20 896

原创 hbase之Htable 之put过程

1. hbase 版本: 1.2.02.Connection接口 2.1 在我们操作hbase数据库的时候,首先需要建立连接(Connection)--如下示例代码Configuration configuration = HBaseConfiguration.create();configuration.set("hbase.zookeeper.property.cli...

2018-11-30 22:16:41 1442

原创 记录一次基于finagle 开发thrift协议的流程

1.前沿       最近需要开发一个RPC服务框架,由于我们公司使用finagle来开发http服务接口,同时finagle支持thfirt协议,打算调研一下。        需要解决的问题:         1. 支持分布式部署,即需要部署多个实例         2. 服务QPS达到一定值(这个主要跟业务的架构有关啦,属于本身业务代码的范畴)         3.各实例服...

2018-11-29 10:17:26 885

原创 LRU算法学习总结

一.前沿 之前在学习或者工作中,接触到LRU相关的缓存策列,于是想着了解下LRU。在网上google了下相关内容后 自己也写了一个简单的LRU实现(当然实现该算法有很多,策列也不一样是固定的,需要根据具体的业务及权衡做出合理的算法策列),写一篇blog简单的记录下二.LRU原理 用一个教材案例来演示LRU原理,假设内存只能容纳3个页大小,按照7 、0、1、 2、 0、...

2018-11-18 18:34:44 4217

原创 排序算法之堆排序

1.堆         堆是具有以下性质的完全二叉树:每个节点都大于或等于其左右孩子节点的值,称之为大顶堆;反之每个节点都小于或等于其左右孩子的值,称之为小顶堆。          对于堆的实现,我们可以用数组来表示元素的位置关系,如果一个具有12个节点的堆(小顶堆)如下图所示:                          那我们使用数组arr[0..11]的形式表示如下:...

2018-10-30 18:47:43 189

原创 hadoop作业运行机制

1.前沿hadoop环境是cdh5.13 ,使用yarn作为资源管理器2. 步骤详情 2.1 作业提交当调用job.submit()/job.waitForCompletion() 时,向资源管理器请求一个应用ID,作为MapReduce作业ID 根据程序配置的输入路径,计算作业的分片大小(该分片大小决定了map个数,map个数以及reduce个数 计算方式 见另一...

2018-10-08 17:07:54 423

原创 mapreduce 作业中 map/reduce 个数的计算

1. 问题描述   当在hadoop集群提交mapreduce作业时,map 和 reduce 的个数是如何计算的? 2. map个数的计算   2.1  map个数的计算和分片大小(splitSize)是有关系的,所以我们先看看splitSize的计算公式: long splitSize = Math.max(minSize, Math.min(maxSize, blo...

2018-10-08 16:59:40 5665

原创 hbase之setCaching 和 setBatch 和setMaxResultSize

1.前沿关于hbase setCaching ,setBatch 网上搜索一大把资料,主要的目的是以空间换时间,减少RPC请求的次数 ;之前看到的一些文章不能完全解答自己的一些疑惑 比如 :不设置setBatch,返回的result 的数量?其对rpc次数的影响?setCaching默认值?其次新版本hbase(HBase-0.98 之后的版本,还没有考证)引入了setMaxResultSiz...

2018-09-18 21:06:16 2436

原创 记录一次解决maven jar包冲突的过程

项目介绍项目A需要是用maven来管理jar包,主要需要引用两个依赖依赖1:<groupId>com.pilosa</groupId> <artifactId>pilosa-client</artifactId> <version>1.0.0</version>...

2018-09-10 20:55:23 2586

原创 利用redis实现分布式锁

一. 对于分布式的应用,一定程度上会增加处理的速度。但是也会带来一些分布式上的麻烦,比如有个需求:后台程序部署在多台服务器上,client向该后台程序发送参数为 用户账号和 账号类型 的rpc请求,后台程序需要返回该账号对应的身份信息(逻辑很简单,先判断库中有没有该账号信息,有就返回,没有就新生成一个新的身份信息 返回)。设想如果多个client 同时发送多个一样的账号和账号类型 到后台程序,由于...

2018-08-13 21:11:56 139

原创 JAVA Signal Handing

一  . 前言        有一个后台服务,有个时候需要停下服务,关闭的时候需要“优雅”的关闭,保证程序是正常结束的。 二 . Signal Handing 处理      1. 案例说明: 有三个线程Level1 、 Level2 、 Level3 ,关闭时候需要保证顺序 Level1 结束 -&gt; Level2结束 -&gt; Level3结束      2.案例代码...

2018-07-30 20:33:46 443

原创 spark 向elasticsearch 优化写入数据

 一、前言       近期有个项目用spark向es(版本5.x)写入数据,该项目是离线任务,每天创建一个index存数据,随着数据量的增大(2亿+,峰值有5亿+)。性能出现问题:写入时间过长,es响应不过来等 二、 调整策列       1.由于该项目是离线任务,并不是需要实时查询,可以将es中的near real-time search属性 设置较高的阈值30s或者-1 。默...

2018-07-14 20:11:08 8729 7

jpa(hibernate 持久层)所需要的jar包

使用jpa技术时,我们可能会缺少某些jar包或者添加的jar包不匹配,为了方便大家,以及自己日后的需要,,特将所需要的jar包上传。(本人测试过)

2015-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除