敏叔V587-CSDN博客

原创 Flink程序员开发利器本地化WebUI生成

在flink程序开发或者调试过程中，每次部署到集群上都需要不断打包部署，其实是比较麻烦的事情，其实flink一直就提供了一种比较好的方式使得开发同学不用部署就可以观察到flink执行情况。

2024-03-17 22:07:17 387

原创在docker中玩flink时候记录一些组合命令

玩docker的时候记录一些组合命令，一方面是可以直接拿上来使用，还有的话也可以拿过来改改，主要是我自己有这种经历，过一阵子我自己也忘，与其去搜人家的博客还不如自己记录一把。好了，没啥所谓的规律性，就是一些日常经常使用的命令组合。

2024-03-04 22:57:39 252

原创在Docker跑通Flink分布式版本的WordCount

前文我们介绍了,,这一把我们研究一下怎么自己撸一个WordCount上去跑起来。

2024-03-03 17:26:55 956

原创使用Docker快速部署Flink分布式集群

本文其实是介绍了最长见的两种使用docker的场景，一个是自己开发的程序如何用docker跑起来，第二是使用现成的容器更快速让我们入门。这两种方式在以后会经常碰到。

2024-03-03 09:38:18 1429

原创 failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code

【代码】failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code。

2024-03-02 22:43:46 233

原创 VSCode将某个字符替换为换行符并换行显示

快捷键其实想 option+command+f ，但是我每次都记不住，大家可以直接在编辑栏找到replace的地方。选择之后记得写着*的那里其实就是正则模式，否则的话会替换成字符串的\n。我的需求是一个一行的数据，用逗号分开，我希望竖着看有规律点，类似这样。不想每次去查了，我自己写博客记录一下~~~

2024-02-22 21:10:40 472

原创 mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec

【代码】mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec。

2024-02-08 10:17:35 178

是这样，笔者最近满怀欣喜入手Docker，看着各种文章命令都是不断点头称道：“嗯嗯，不错不错”,在接下来终于准备大干一场的时候碰壁了，主要情况是说在Mac中跑了第一把的时候发现碰到，虚拟机和宿主机居然是不通的，当然也找了一下资料说linux才是天然支持docker滴，底层都有cgroup，clx吧啦吧啦，mac,windows这种其实是底层干了波虚拟机，然后要转发啥的。从我过去多次学习大数据组件入门到放弃的情况来说，网络这种事情要提前解决，不能卡着，否则后面很多破事情。

2024-02-07 10:22:39 1031

原创大数据技术闲侃之-鹰隼试翼风尘翕张

似乎是需要把一系列串起来，继走出校门、岗位选择之后，现在又开始卷职业规划了，有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头，后续持续很久放在记事本上面吃灰了。这段时间呢，组里有3位刚从校园的同学进来，组里年龄瞬间拉低了一个很大的水平，不管愿不愿意，反正生理年龄上来了一场风暴式的洗牌，主要找工作这个事情上如果相同水平的话，肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。

2023-08-16 13:05:32 323

原创大数据技术闲侃之岗位选择解惑

写下这篇文章是因为五一节前给群友的承诺，当然按照以往的惯例，也是我背后看到的这个现象，我发现大部分同学在投递岗位的时候都是投递数据分析岗位，其实背后并不是很清楚背后的岗位是做啥的，想想我自己的工作生涯，还是觉得可以写一写。

2023-05-15 22:58:05 330 1

原创 Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长

Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长，问题解决

2023-04-22 21:37:44 958

原创如何在JAVA代码中嵌入汇编

如何在JAVA代码中嵌入汇编，Chatgpt来啦

2023-04-20 22:13:56 597

原创 #恭喜闲侃群通过人肉的方式对接了ChatGPT

我们的闲侃群一直很活跃啦，看到大家那么积极讨论，今天群主加一把火，大家的问题一起丢给ChatGPT看看，主要是我看了答案还是很不错的，这不小文章就出来了嘛~

2023-04-20 21:52:12 387

原创 anaconda运行Notebook和jupyter报错resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard)) ValueError

mac anaconda3 File "/Users/zhuxuemin/anaconda3/anaconda3/lib/python3.9/site-packages/notebook/notebookapp.py", line 1704, in init_resources resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard))ValueError: current limit exceeds maximum limit

2023-02-02 23:06:15 1189 2

原创改良海量数据存储的若干的手段-转变数据垃圾为黄金

直到翻看了后面章节，才注意到封面上面的标语，中文意思是“禁止倾倒数据垃圾，违者务必读此书！”大致祖师爷对杂乱无序的数据垃圾深恶痛绝，在这点上大凡上了点年头的数据工作者都是深有体会~直到翻看了后面章节，才注意到封面上面的标语，中文意思是“禁止倾倒数据垃圾，违者务必读此书！”大致祖师爷对杂乱无序的数据垃圾深恶痛绝，在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述一开始数据湖信息在设计时并没有考虑未来的访问和分析，机构会发现这样的数据湖仅仅是数据量大而已，大部分数据并不能真正支持他们的业务

2022-11-18 21:05:17 479

原创关于技术面试一些有用的经历

其实比较标准的情况就是一个是技术把关，一个是你未来老板，一个是hr，有时候会发现搞个几轮，或者也就两面就通关了，这种情况是这几个角色分到几个人身上，或者就一个人顶了两轮角色的情况，有个需求注意的事情是，这里头其实没有闲人，尤其是针对技术把关的同学，他们在日常的工作中事情也是非常多的，所以内心诉求是期望面试的人就是自己想找的人，至于后面的老板嘛，肯定更加忙的，因为一旦面试不过的话，又要找下一个。还有些情况就是也不写毕业时间，或者模棱两可，因为这个需要判断工作时间的关键因素，后面的工作情况也是一样。...

2022-08-07 08:45:09 183 2

原创手撕SparkSQL五大JOIN的底层机制

Broadcast hash join (BHJ)Shuffle hash join（SHJ）Shuffle sort merge join (SMJ)Shuffle-and-replicate nested loop join，又称笛卡尔积（Cartesian product join）Broadcast nested loop join (BNLJ)这些机制你真的了解清楚么，今天对SparkSQL JOIN的机制从原理和源码都深入剖析，不管是做Spark优化，问题排查，都有极大的帮助~~

2022-07-31 14:43:56 1521

原创大数据技术人员的打怪升级之路

事实上我们一般是把自己说成是技术人员，而在我们的下游还有一部分也是做数据的，消费我们的数据，我们会把他们才叫做数据人员，在大数据的成长之路上，利用技术手段加持你真正的数据链路，从这个层面来讲探索新的etl pattern，带来新的设计范式，打造行业规范，也是可以星辰大海的一件事情，也就不会觉得数据人这个称呼不大行了！！............

2022-07-21 23:00:55 369

原创 Spark3.3.0源码编译补充篇-抓狂的证书问题

spark 编译gcs-maven-central-mirror (https://maven-central.storage-download.googleapis.com/maven2/): transfer failed for https://maven-central.storage-download.googleapis.com/maven2/org/apache/maven/plugins/maven-metadata.xml

2022-06-20 22:44:47 583

原创 SecureCRT运行SparkShell 删除键出现乱码的解法

SecureCRT 通过spark-shell启动控制台之后发现没办法进行删除操作一直按删除健没用选择----->会话选项---->映射键---->勾选两个勾仿真---->终端选择linux乱码问题，调整一下编码记得重启一下,后面界面也会变成linux的画风哦...

2022-06-18 12:13:41 492

原创数据湖架构之Hudi编译篇

说起编译hudi，从第一遍过之后，再回过头来看，发现就是第一遍不熟悉，出现的一切问题可以总结为maven仓库没配置好。一开始我只是配置了阿里云仓库，但是后面不断报错，然后百度谷歌找原因，再调整配置，再编译，最后就成功了，所以整体来说编译不复杂，只要配置正确，那我把最后可以通过的配置贴出来，这也是我觉得可以帮助到大部分同学的地方。hudi迭代还是比较快的，因为同时也依赖了hadoop和spark，为了组合使用，我使用的是0.9.0版本，对应地址：[https://hudi.apache.org/release

2022-06-18 02:40:26 1316

原创 hadoop的基础设施-protobuf-2.5.0编译和安装

在安装编译Hadoop的时候需要提前安装protobuf-2.5.0的，而且版本不要高了或者低了，这个是因为hadoop的rpc通信里面是直接使用protobuf-2.5.0作为数据格式交换的，因为遇到很多次，每次都从头安装，这次记录下来。......

2022-06-18 00:53:28 1280

原创 CentOS yum源设置为国内aliyun yum源

CentOS，配置阿里巴巴的yum源，本身的网络上也是可以有很多资料的，但是我实际测试下来网络上很多的源其实是会变化的，我自己配置下来，也是觉得不能只告诉怎么配置，而是要说明怎么去找，可能是更加有帮助的。要知道去访问这个官网：https://developer.aliyun.com/mirror/官网上其实是给的镜像信息，只不过在介绍镜像的时候提供了yum源而已，我们选择centos进去里面很详细会介绍配置方式，关键是有一个过期源找到自己系统版本镜像配置首先做一下备份,问题不大接下来按照官网的说明

2022-06-18 00:32:48 862

原创 Spark性能优化之SparkUI

SparkUI其实信息量非常大，而且是需要不断去加深理解Spark内容才能理解内容的，涉及到作业优化，找原因才是最关键，而对于Spark作业来说读懂Sparkui的信息，更加是关键中的关键。

2022-05-02 22:34:17 2766 1

原创大数据处理之魔幻的NULL

null在数据中是一个很特殊的存在，我们实际经历多起生产事故，而且直接就带来直接的经济损失，这个值在实际使用的时候很容易被用错，今天我们来盘点一下null带来的坑吧

2022-05-01 20:08:37 314

原创大数据开发第一站ODS篇

ODS的话题一般比较少人专门去聊，但是对数仓来讲首先要关注的就是ods的建设情况，这个直接决定数据开发的整体效率，那么今天来聊聊关于ODS的那些事情吧~~

2022-04-30 18:36:23 3276

原创数仓高频操作JSON篇

前言JSON的话在实际开发中大量使用了，常规的解析操作直接一把百度就可以查到了，不过总有一些犄角旮旯的需求让人抓狂，今天对JSON部分操作进行一些梳理，方便碰到之后在这里可以查询。GET_JSON_OBJECT命令格式命令格式string get_json_object(string <json>, string <path>)需要注意的是第二个参数其实是path,实际是如下的使用,蛮多人对那个$.a云里雾里，这里头到底写啥呢，我比较喜欢找到原始的出处，其实是在Hive上

2022-04-25 23:45:23 1274

原创元宇宙与虚拟现实(二)

前面我们关于元宇宙进行了概念上的阐释，本篇文章继续会探讨一些元宇宙里面脑洞大开的话题，如元宇宙和现实的关系，以及热门话题，关于元宇宙怎么炒房~~

2022-02-14 22:36:17 1948

原创元宇宙与虚拟现实(一)

前言最近有关元宇宙的讨论不仅出现在大家的视野，元宇宙这个词可谓是席卷了整个互联网，自打扎克伯格宣布facebook改名meta，之后又纷纷看到新闻不断有巨头进军元宇宙，就最近国内一些金融公司，国企大公司也在新闻上说搞元宇宙。这架势，对于一个互联网人来说得着急了，再不去熟络熟络元宇宙肯定就落伍了。 2021年是定义为元年，现在和同事一块吃饭都聊元宇宙怎么怎么地。其实就元宇宙是个啥这个众说纷纭，有说就是VR游戏之类的，有说虚拟人之类的，这就感觉好像说的对，但是总感觉又没全对，因为我自己也有这种不确定的

2022-01-29 21:09:13 3562

原创利用SparkLauncher实现Spark Cluster模式下的远端交互

前言编者按——————————前一阵子在技术小群有位同学在群里做了和SparkLauncher相关的问题，当然聊天信息还有前后左右，大致就是希望可以定制化Spark的提交。也是，Spark的官网其实一出来就是教我们用命令行怎么去提交，诸如命令行什么的，有下面这样的./bin/run-example SparkPi 10还有这样的./bin/spark-submit examples/src/main/python/pi.py 10这种搞搞学习还好，到了实际需求来说这这架势整不会了。当然除

2022-01-22 21:50:34 3328 1

原创 Spark3.x的Cache能不能让我在2022好好睡觉

前言一转眼已经是2022年1月9日了，跨年的节点会发生很多系统性的大事，对于普通人来讲就是跨过一个新的公元年2021->2022,对于生产系统来说，尤其是离线系统，需要发生年结，虽然期望平稳度过，但是实际情况总归没那么太平，所以每次到了这种节点，我们都是第一个flag，新的一年，好好睡觉!!2022我就想好好睡觉Spark1.XSpark1.x的时代，大部分工作上解决内存计算模式下动不动就OOM那种让人抓狂的事情，需要半夜爬起来加内存Spark2.xSpark2.x版本，尤其是SparkS

2022-01-09 20:26:27 809

原创 Spark 3.0 中的屏障执行模式_Spark的MPI时代来了

RDD屏障概念引入Spark 3.0 引入了一种名为RDDBarrier[T]的新型 RDD ，它表示 RDD 需要使用屏障执行模式来处理。此 RDD 公开了普通 RDD 中不可用的新功能。RDDBarrier的源码定义如下：/** * :: Experimental :: * Wraps an RDD in a barrier stage, which forces Spark to launch tasks of this stage together@Experimental@Since

2021-12-15 23:30:08 2037

原创利用SparkSQL Logical Plan Parse 打造大数据平台SQL诊断利器

基于Spark Logical Plan Parse ，对Spark 源码的定向改造，打造大数据平台SQL诊断利器

2021-12-12 16:44:37 2770 1

原创大数据平台治理——运营的角度看数仓

前言三分靠技术，七分靠管理，其实一直就是技术岗位的现状，事实上在一个完整的互联网产业结构中，除了本身的软件性能和软件设计的优雅追求，还有着业务的持续运营以及背后的商业模式的运作。分析师的工作更多的就是指导业务的运营以及商业上成本的考量，以便为进一步的决策提供数据参考，本文就从一个数据分析师的角度去聊一下数仓的治理。分析框架开局一张图我们说一个数仓的好与坏不是单纯的某个地方的好与坏，而是通过从左看右看上看下看达到一个优化局部最优到整体最优的解决方案。

2021-12-03 21:48:22 864

原创两条华子也换不来的数据湖讲解

前言数据湖一词进入我的视野是两年前，我记得当时是我们老板给我么做了DataBricks的技术分享报告，那个时候其实是介绍Spark的一些新特性，然后顺便介绍了数据湖。在此期间，数据湖技术也由一开始的想法、落地、迭代，各大企业纷纷推出自己的基于湖仓技术的解决方案，可以说是全面开花。正如十多年前了解到hadoop那样，大数据技术的发展可谓迅猛，所以我们也是要不断更新自己的知识体系，今天我们来侃一侃数据湖的巴拉巴拉。数仓的现状一谈到大数据的历史，我们都熟知的Google引爆大数据时代的三篇论文Google

2021-11-27 00:38:57 3188 4

原创 OVA Import：一个最快速度打造Linux虚拟机的操作 | Linux vmware

前言前阵子一度没怎么写小文章，原本想着咱这小地方，关注的人少，也没觉得有啥。。。直到小伙伴说”敏叔好久没写文章了喔“，哈哈，谢谢大家的支持，你们的鼓励就是我写下去的动力！！技术领域都遵守着一条法则——从入门到放弃！这句常常被大家拿来开玩笑的话语却是普遍现象，就在之前本叔的小文章发布之后，有几个小伙伴（我小粉少^^）觉得可以大干一场的时候，瞬间夭折了~~折了~了。我是有那种从入门到放弃的切身体会，之前写的文章一直也是用最简单的配置去搭建一个环境，然后小伙伴看了想自己来一把的时候，发现自己卡在了linux

2021-11-18 20:36:13 905

原创 Error executing CMake: Cannot run program “cmake“

[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:3.2.2:cmake-compile (cmake-compile) on project hadoop-pipes: Error executing CMake: Cannot run program “cmake” (in directory “/Users/zhuxuemin/IdeaProjects/hadoop-3.2.2-src/hadoop-tools/

2021-11-08 13:32:04 1473

原创 hive-3.0.0源码编译详解

前言看我往期文章的朋友都会发现我聊SQL的时候喜欢拿一份Hive的源码来做参考，其实在我看来，对于技术人员来说，源码其实就是最好的参考资料了，不管是网络上面有的或者没有的，源码都可以给你最原汁原味的解释。Hive版本3.x其实出来很久了，本文结合编译的过程，顺便聊聊编译的那些事。准备工作在入手一份源码之前，首先要知道源码是从哪里可以搞到，hive代码首先是可以在github上面下载的，搜索关键字 "hive github "其实发现cdh的版本也是可以搜索到，问题不大!当然hive源码包也有自己的

2021-11-08 11:30:09 2042

原创一个很实用的造数工具—Spawner Data Generator

前言搞学习的时候有一点被忽略，那就是数据内容本身，本着实用原则，今天推荐款很实用的造数工具，用了很多年，比较顺手。入场Spawner Data Generator是一个免费的造数工具，下载地址：https://sourceforge.net/projects/spawner/下载之后是一个spawner.exe，绿色无污染，点开即可。这个工具可以满足各种场景的使用，简单用起来~上手1、数字类型整数、实数、或者按照特定的规则进行自增，典型的Id生成的场景2、支持姓名、邮箱、电话、街道、城市

2021-11-07 10:06:19 3956 3

原创数仓面试重灾区之-Generic User-defined Table Generating Function(UDTF)

前言UDTF 这玩意对数仓同学来讲，熟悉又陌生，主要一方面是大量接触，另一方面是理解上有误导，还一个就是不是太明白里头到底咋回事。场景切入关于UDTF面试场景大概有以下的问题：1、hive的udf你了解么，常用都有哪些类型2、行专列操作了解么，里头是怎么实现的3、比较直白的问法，udtf你了解么4、关于hive的优化方式，udtf其实是考察之一背后的原因：1、首先实际线上滥用很多，数据膨胀、倾斜等，导数很严重的问题，实际点的例子，线上碰到因为udtf膨胀4-5个小时的运行时间，优化之后直接

2021-11-06 14:43:48 246

Hbase命令大全

空空如也