3 lsr40

尚未进行身份认证

我要认证

菜鸡一个,还请见谅

等级
TA的排名 1w+

【kafka】为什么快(why‘s kafka so fast)?

大家好我又来了!我先提前说下,本文其实是比较早之前我整理给自己看的,那时候是看到外网有一篇文章说到这个事情,具体作者是谁我已经忘记了(因为原文已经访问不了,好像是因为域名过期了),但是其实大家直接搜索“why's kafka so fast”这样的关键字,还是可以找到不少转载的英文原文博客!外网原文地址:http://searene.me/2017/07/09/Why-is-Kafka-so-fast/这次来说说面试中时场被问到的kafka为什么快?kafka这个框架应该很多做流式数.

2020-07-07 15:49:15

【spark】使用kryo序列化和压缩,减少数据缓存和传输的大小

本文其实主要是想说说spark的kryo机制和压缩!首先spark官网对于kryo的描述:http://spark.apache.org/docs/latest/tuning.html#data-serialization官网相关参数:http://spark.apache.org/docs/latest/configuration.html#compression-and-serialization大概是说,kryo很强,建议使用,spark2.x的很多地方已经自动帮你用上了kry..

2020-07-01 17:02:05

【spark】关于spark的shuffle模式的一些见解

我不想说太多源码层面的东西,然后把详细方法一个个列出来,其实没有多大意义(因为源码里有,再者比我讲的清晰明白的大有人在,我没有必要再重复相同的东西),但是我真的花了好大的精力才把这部分看完,我得记录下,不然会忘掉一、spark到底有几种shuffleManager(shuffle管理类)可以选择?首先spark早期的版本(比如1.5.1版本),是有三种shufflehttp://spark.apache.org/docs/1.5.1/configuration.html#shuffle-b.

2020-06-30 20:17:34

【spark】都有哪些级别的容错或者失败重试?

哎,我又来写文章了!最近在看spark源码(照着这本书看的《Spark内核设计的艺术架构设计与实现》),想整理一些东西(一些以前面试被问到的在我脑中没有体系的知识点吧)1、Application级别的容错spark.yarn.maxAppAttempts如果没有手动配置这个参数,那就会使用集群的默认值yarn.resourcemanager.am.max-attempts,默认是2,这是hadoop的yarn-site.xml里面配置的,当然spark.yarn.maxAppAttem.

2020-06-28 11:25:41

【spark】on yarn的模式下,如何上传files并在程序中读取到?

在使用spark的时候,往往我们需要外部传入文件,来配合程序做数据处理那么这就涉及到,如何传入,如何获取(本文讨论的是spark on yarn)?讲实话,我觉得这个问题挺烦的,我百度了好久(可能我姿势不对?),各种博客,stackoverflow,community.cloudera.com都找过,我觉得回答方都停留在理论基础,并没有show me code,我实际测试的时候,好像又和他们说的不太一样,哎,要是能有统一的入口,统一的出口就好了1、client模式client模式下.

2020-06-24 15:58:12

【java】获取线程池中的线程返回结果,Future和FutureTask的使用

本文会结合Future描述下线程池的使用场景最近因为换了工作,新工作需要更多的时间熟悉和上手,所以好久没有写文章了!不过其实也一直有在看一些东西,比如Netty,spark源码(其实以前有看过,但是太囫囵吞枣忘得差不多了),然后想起我以前写过一个线程池相关的文章,但是对于线程池的使用只是一笔带过,所以今天想具体来写写【java】线程池概念,如何使用线程池?:https://blog.csdn.net/lsr40/article/details/101428779案例:曾经...

2020-06-15 20:15:19

【数仓】数据仓库的指标库(五)

本文要来说说,数仓中的数据指标库数仓系列:【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.csdn.net/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://blog.c...

2020-05-02 18:03:13

【数仓】数据仓库的数据质量任务监控(四)

我想在本文说说数据质量,ETL任务管理和监控数仓系列:【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.csdn.net/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://...

2020-04-23 00:00:56

【数仓】数据仓库的元数据管理(三)

看了一些其他文章,有说定义的,有画图的,其中也不乏有一些很不错的文章但是其实没有一个统一的概念说明元数据管理的边界应该是什么,所以大家的做法会有所不同,有些元数据管理还会把数据质量模块也加入进来,有些可能是独立出来一个监控数据质量的模块,当然大家的目的都是想实现数仓的完整架构,只是各有各的方式和步骤~之前看过一句话,觉得很有意思:元数据管理其实就是解决,数据的哲学问题,我是谁,我...

2020-04-21 17:35:15

【数仓】数据仓库的建设(二)

前言:前文说了一些数据仓库的基础概念和模型,本文继续往下说吧!【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/1055760471、数仓的目标(能完成什么事情)当工作中遇到以下的事情:-1.数据分层混乱,不知道从何查起-2.数据指标维度不统一,业务/数据分析部门要数据,只能找数据开发口口相传-2...

2020-04-20 18:59:18

【数仓】数据仓库的思考(一)

对于数仓的概念非常大非常广泛,而且也并没有绝对正确的架构,只是有一定的方法论,一定的前人总结留下来的理论,所以我也不知道我这个系列会更多久,会更多少,反正我就把我现在对于数仓的想法记录下来,以后如果有更深的理解,再说吧~1、什么是数据仓库这个百度也能找到答案,但是我想说的是我的观点。数仓应该是一种数据整合,数据治理,将数据做成一种服务,对外提供。什么叫数据整合,大家应该听过数据孤...

2020-04-17 15:06:41

【spark】自定义数据读取的InputFormat(异常:incorrect data check)

其实大多数场景下,各种大数据框架预定义的InputFormat(数据读取器)是够用的,除了一些比较特殊的情况,特殊的数据格式,我们才会需要自定义读取数据的方式。然后有一天,我在接入一个hdfs上gz格式数据的时候,遇到了一个报错:仔细看了报错,是输入流在read数据的时候,调用LineRecordReader的nextKeyValue方法报错了,百度了下,没有什么太准确的答案,大致来说...

2020-03-31 15:26:32

【spark】Spark Streaming写HDFS解决小文件问题思考

在实时的需求越来越高的当下,流式处理越来越重要。特别是有些需求,需要流式数据join静态数据来制造一些大宽表,提供不同维度的分析。然后往往这些数据我们会写到hdfs,但是写到hdfs就会遇到小文件的问题,其实我之前分享过批处理如何解决小文件的问题大家有兴趣可以去看看。【spark】存储数据到hdfs,自动判断合理分块数量(repartition和coalesce)(一):https:/...

2020-03-19 19:48:48

【spark】关于spark处理上百T数据清洗过滤的思考

我,菜鸡一只!本文会通过读取数据文件,外部传入参数,处理数据,保存数据,参数设置这几个点来宏观的说说我自己对于spark使用中的一些注意点继上一次写文章到现在好久了哦!工作上,数据的日常需求还是一直有的,然后我自己又想接一接java功能上的需求(多写写java代码提升自己的眼界),在这样的情况下,我的工作已经基本饱和了,结果突然领导说还要开个新的数据模型,年前要给测试反馈,所以12...

2020-02-12 18:57:44

【shell】shell中循环连续日期

菜鸡一只,今天快速记录下shell循环连续日期!因为毕竟常遇见重跑的任务,然后启动的spark任务的入口需要传入重跑的日期,如果日期毕竟少,其实可以这么写:for date in 20191015 20191016 20191017 dospark-submit \--master yarn \--queue xxx \--name xxx-${date} \...

2019-12-03 11:02:46

【java】垃圾回收机制与算法

之前看了一些java的垃圾回收机制的文章,感觉全网都有,但是写的参差不齐,有的写的超好,有的总觉得怪怪的,所以还是自己整理一番!(如有雷同,纯属抄袭。。。)哎,“寒冬”啊,大家日子都不好过!概念:垃圾回收机制就是当你写你的java代码的时候,基本不需要考虑内存资源的占用和释放,为什么说基本不需要考虑呢,因为java有垃圾回收机制来帮你做这件事情,但是为什么又没有说完全不考虑呢?因为...

2019-11-18 14:23:56

【hive】hive加载json数据和解析json(二)

超久超久没写博客了,近来的都是比较杂的临时活,大家都在喊他的活很急,最要紧,挺令我心烦的,不过有活总比没活做好吧!言归正传,本文讲的是hive解析json格式的数据最近处理了这么一份数据,json格式的,其实我之前写了一篇博客:hive加载json数据和解析json(一):https://blog.csdn.net/lsr40/article/details/7939916...

2019-11-11 22:41:24

【ES】ES中的join方案二(parent和child的join,基于6.3版本的java实现)

承接上文【ES】ES中的join方案一(Nested类型,基于6.3版本的java实现):https://blog.csdn.net/lsr40/article/details/102398379上文说到ES中的join有两种实现,上文把Nested类型的实现说了,本文要写的是通过设置join的字段,来关联不同文档,通过设置的parent和child,来实现父子关系。等下,为什么要有父...

2019-10-09 15:50:19

【ES】ES中的join方案一(Nested类型,基于6.3版本的java实现)

菜鸡一只,国庆真是玩了好几天,等到快上班的时候才开始又学习,找状态本文来讲讲ES中的Join方案!在数据库中,join是非常常见的操作!其实就是将两张表的数据合并到一起,然后查询出结果数据,当然最后可能还需要一些过滤,这是数据库中的概念在ES中也有join的方案,ES提供了两种api:1、使用Nested结构存储(查询)数据2、通过设置字段的type为join,然后使...

2019-10-08 17:28:38

【java】线程池概念,如何使用线程池?

菜鸡一只~其实我还是知道我自己的水平的,菜是原罪,还是要不断的学习成长提高啊!因此我会看看一些乱七八糟的直播啊,博客啊之类的(虽然往往整整2个小时的直播里,可能就讲了15分钟的重点,不过有时候会提到某项技术,大概的实现方式和适用的场景,会让我眼前一亮啊),当发现有一两个点我之前没听说过或者我觉得有意思,我就会记录下来,等有时间的时候整理成自己的知识!本文要说的是在java线程池的一...

2019-09-26 11:12:19

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。