5 hi蜗牛慢跑

尚未进行身份认证

挑战,勇气,信心

等级
TA的排名 33w+

kafka高性能-内部架构设计

一.前言学习以及使用kafka有一段时间了,有必要对kafka做一些笔记,本片文章重点记录kafka底层的设计,对于一些参数以及client的demo等读者可以自行查看官网二.kafka底层设计我们知道kafka各项指标(吞吐量,延迟性以及持久化等指标)很优,而kafka毕竟是需要将日志持久化到磁盘中的,那么kafka是如何做到的呢?1.顺序写入...

2019-07-21 15:56:03

kylin学习笔记

一.前言前段时间,有个项目接触到kylin这门技术,后面公司要求每个人每个季度做一次演讲,于是就结合公司的业务讲kylin(ps:感觉公司这个制度挺好的,虽然是强制的,但是至少督促我们对以前用过的东西做一些总结以及挖深)。这篇blog就把上次讲解的ppt再吵一次饭吧二.OLAP背景企业随着数据量的越来越大,数据分析查询响应时间以及及时性要求也越来越来越高,如果按照传统的ETL方...

2019-02-20 10:45:20

hbase之Htable 之put过程

1.hbase版本:1.2.02.Connection接口2.1在我们操作hbase数据库的时候,首先需要建立连接(Connection)--如下示例代码Configurationconfiguration=HBaseConfiguration.create();configuration.set("hbase.zookeeper.property.cli...

2018-11-30 22:16:41

记录一次基于finagle 开发thrift协议的流程

1.前沿    最近需要开发一个RPC服务框架,由于我们公司使用finagle来开发http服务接口,同时finagle支持thfirt协议,打算调研一下。    需要解决的问题:     1.支持分布式部署,即需要部署多个实例     2.服务QPS达到一定值(这个主要跟业务的架构有关啦,属于本身业务代码的范畴)     3.各实例服...

2018-11-29 10:17:26

LRU算法学习总结

一.前沿   之前在学习或者工作中,接触到LRU相关的缓存策列,于是想着了解下LRU。在网上google了下相关内容后自己也写了一个简单的LRU实现(当然实现该算法有很多,策列也不一样是固定的,需要根据具体的业务及权衡做出合理的算法策列),写一篇blog简单的记录下二.LRU原理   用一个教材案例来演示LRU原理,假设内存只能容纳3个页大小,按照7、0、1、2、0、...

2018-11-18 18:34:44

排序算法之堆排序

1.堆     堆是具有以下性质的完全二叉树:每个节点都大于或等于其左右孩子节点的值,称之为大顶堆;反之每个节点都小于或等于其左右孩子的值,称之为小顶堆。     对于堆的实现,我们可以用数组来表示元素的位置关系,如果一个具有12个节点的堆(小顶堆)如下图所示:              那我们使用数组arr[0..11]的形式表示如下:...

2018-10-30 18:47:43

mapreduce之 shuffle 和排序 读书笔记

一.前沿关于mapreduceshuffule相关的文章有很多,本文主要结合优化方案对shuffle和排序做一个读书笔记的总结。如果有错误的地方还希望能够指正二.Map端在说明之前,先来张经典图:从图中可以看到,每个map有一个缓冲区(bufferinmemory),该缓冲区默认大小为100M。一但缓冲区达到阀值(mapreduce.ma...

2018-10-09 20:43:42

hadoop作业运行机制

1.前沿hadoop环境是cdh5.13,使用yarn作为资源管理器2.步骤详情2.1作业提交当调用job.submit()/job.waitForCompletion()时,向资源管理器请求一个应用ID,作为MapReduce作业ID 根据程序配置的输入路径,计算作业的分片大小(该分片大小决定了map个数,map个数以及reduce个数计算方式见另一...

2018-10-08 17:07:54

mapreduce 作业中 map/reduce 个数的计算

1.问题描述  当在hadoop集群提交mapreduce作业时,map和reduce的个数是如何计算的? 2.map个数的计算  2.1 map个数的计算和分片大小(splitSize)是有关系的,所以我们先看看splitSize的计算公式:longsplitSize=Math.max(minSize,Math.min(maxSize,blo...

2018-10-08 16:59:40

hbase rowkey 设计

1.散列(Salting)如果我们执行一些操作比如:read,write等在某一个节点或者少数节点上(集群中),即某个或者少数几个region处于热点状态,这样会导致整体性能的下降。这个时候我们就需要散列我们的rowkey,即将rowkey分布到不同的region上面中。我们知道hbase中的一个region包含属于startkey与endkey组成区间的所有rows。根据这样...

2018-09-26 20:31:20

hbase之setCaching 和 setBatch 和setMaxResultSize

1.前沿关于hbasesetCaching,setBatch网上搜索一大把资料,主要的目的是以空间换时间,减少RPC请求的次数;之前看到的一些文章不能完全解答自己的一些疑惑比如:不设置setBatch,返回的result的数量?其对rpc次数的影响?setCaching默认值?其次新版本hbase(HBase-0.98之后的版本,还没有考证)引入了setMaxResultSiz...

2018-09-18 21:06:16

记录一次解决maven jar包冲突的过程

项目介绍项目A需要是用maven来管理jar包,主要需要引用两个依赖依赖1:<groupId>com.pilosa</groupId><artifactId>pilosa-client</artifactId><version>1.0.0</version>...

2018-09-10 20:55:23

java8之hashmap

摘要关于hashmap的理解,百度或者google有很多相关的文章,本片文章主要记录下自己工作中对于map的认识以及自己查看其他blog的一个总结,本片文中涉及到详细的源代码讲解比较少,更多的对其中用到的一些"巧妙点"或者为什么要这样做等做一个文字表述上的分析。具体代码的细节可以参考最后章节的参考链接简介主要从4个方面阐述java8之hashmap功能以及实现方式...

2018-09-10 09:32:12

ThreadPoolexecutor使用以及参数说明

原文链接: http://www.ideabuffer.cn/2017/04/04/%E6%B7%B1%E5%85%A5%E7%90%86%E8%A7%A3Java%E7%BA%BF%E7%A8%8B%E6%B1%A0%EF%BC%9AThreadPoolExecutor/原文链接从代码的层面以及使用上做了较多的讲解,大家可以参考! 本文主要记录下参数的说明以及使用上的注意Th...

2018-08-16 20:42:31

利用redis实现分布式锁

一.对于分布式的应用,一定程度上会增加处理的速度。但是也会带来一些分布式上的麻烦,比如有个需求:后台程序部署在多台服务器上,client向该后台程序发送参数为用户账号和账号类型的rpc请求,后台程序需要返回该账号对应的身份信息(逻辑很简单,先判断库中有没有该账号信息,有就返回,没有就新生成一个新的身份信息返回)。设想如果多个client同时发送多个一样的账号和账号类型到后台程序,由于...

2018-08-13 21:11:56

hive join 优化

1.表的连接顺序selecta.xx,b.xxfromtableajointableb和selecta.xx,b.xxfromtablebjointablea效果是不一样的。左边(前面)的表是被缓存(buffer)在memory中,而右边(后面)的表是被streamed(官方说明:Ineverymap/red...

2018-08-01 21:32:56

JAVA Signal Handing

一 .前言    有一个后台服务,有个时候需要停下服务,关闭的时候需要“优雅”的关闭,保证程序是正常结束的。 二.SignalHanding处理   1.案例说明:有三个线程Level1、Level2、Level3,关闭时候需要保证顺序Level1结束->Level2结束->Level3结束   2.案例代码...

2018-07-30 20:33:46

spark 向elasticsearch 优化写入数据

 一、前言    近期有个项目用spark向es(版本5.x)写入数据,该项目是离线任务,每天创建一个index存数据,随着数据量的增大(2亿+,峰值有5亿+)。性能出现问题:写入时间过长,es响应不过来等 二、调整策列    1.由于该项目是离线任务,并不是需要实时查询,可以将es中的nearreal-timesearch属性设置较高的阈值30s或者-1 。默...

2018-07-14 20:11:08

Spark 性能调优(tuning)

翻译文献:http://spark.apache.org/docs/2.2.0/tuning.html1.DataSerializationJavaserialization:spark默认的系列化类,通过implementsjava.io.Serializable可以序列化任何类Kryoserialization:spark可以用Kryo类库更快地序列化对象...

2018-07-09 09:13:19

wget下载网络url文件

前端时间,接到一个项目,需要用到下载网络url文件,以https开头的网络文件需要证书,即用其他技术可能会受限!废话不多说了,直接上自己遇到的问题以及解决的办法问题:如果下载的url是跳转url,例如:http://apps.wandoujia.com/redirect?signature=c28fa89&url=http%3A%2F%2Fapk.wandoujia.com%2F7%2F2a%

2016-11-14 17:57:50
勋章 我的勋章
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获取