大数据研习社-CSDN博客

原创数仓建设规划核心问题！

建立和维护可收敛的词根库，业务域、主题域我们都可以用词根的方式枚举清楚，不断完善，粒度也是同样的，主要的是时间粒度、日、月、年、周等，使用词根定义好简称，数仓开发的字段命名也可以使用词根进行组合；接管 ODS 层，控制源头，ODS 是业务数据进入数仓的第一站，是所有数据加工的源头，控制住源头，才能从根本上防止一个重复的数据体系的出现。靠别人取数，会存在大量的沟通和协作的成本，同时因为公共集市层数据不完善，导致无法基于现有的数据，直接完成取数，需要数据开发加工新的数据，所以耗时会非常的长，一般需要一周时间。

2023-04-26 12:01:13 1102 1

原创 Kettle 实战教程

4.7 分区....................................................................................................88。4.8 集群....................................................................................................88。

2023-01-31 16:02:55 960

原创 k8s1.25版本集群部署（亲测有效）

实际上就是安装两个软件， ntpdate-4.2.6p5-12.el6.centos.2.x86_64是用来和某台服务器进行同步的，ntp-4.2.6p5-12.el6.centos.2.x86_64ntp-4.2.6p5-1.el6.centos.x86_64 是用来提供时间同步服务的。# 这段话是在主节点kubeadm init时复制过来的, 注意添加--cri-socket。#不开启ipvs将会使用iptables，但是效率低，所以官网推荐需要开通ipvs内核。

2022-11-23 10:44:42 3490 2

原创性能提升5倍！火山引擎如何为 ClickHouse 实现资源隔离？

当该资源组有一个查询结束，引擎会执行该资源组等待队列中最早的查询；如果此时该资源组等待队列为空，则会触发父资源组的资源释放，进一步触发该父资源组的其他子资源组的等待队列查询执行，实现并发 Quota 在一个父资源组之间的共享。基本思路是将并发、内存、CPU 等资源拆分给不同的资源组，同时通过资源组的父子关系实现不同资源组共享部分资源的能力。当用户的查询提交给引擎，依照定义的规则选定相应的资源组，然后评估该资源组以及父资源组是否能够执行该查询，如是则直接执行，否则进入该资源组的等待队列，等待资源释放。

2022-11-16 15:25:35 324

原创整理了173家国企清单，跳槽必备！

银行是个比较大的话题：3家政策行（稳定+高薪），6大国有行，12家全国股份行。每个省的地方性城市银行，地方性农商行，未改制的省联社，还有一批地级市小银行。

2022-11-16 15:21:10 18825

原创 kubeadm安装kubernetes

-ignore-preﬂight-errors= ：忽略运⾏时的错误，例如上⾯⽬前存在[ERROR NumCPU]和[ERROR Swap]，忽略这两个报错就是增加 --ignore-preﬂight-errors=NumCPU 和--ignore-preﬂight-errors=Swap的配置即可。默认情况下， Kubelet不允许所在的主机存在交换分区，后期规划的时候，可以考虑在系统安装的时候不创建交换分区，针对已经存在交换分区的可以设置忽略禁⽌使⽤Swap的限制，不然⽆法启动Kubelet。

2022-11-09 11:11:57 626

原创 Apache Flink 1.16重磅发布，仅22年Flink跨越3个大版本

有了这些功能，Python API 已经基本对齐了 Java 和 Scala API 中的大部分重要功能，用户已经可以使用 Python 语言完成大部分类型的 Flink 作业的开发。之前的流批集成强调统一的API和统一的计算框架。在这个版本中，如果上游子任务中的barrier在execution.checkpointing.aligned-checkpoint-timeout内无法发送到下游，Flink会先让上游子任务切换到UC，将barrier发送到下游，从而减少背压下检查点超时的概率。

2022-11-09 11:01:37 3029

原创 Docker快速部署Tomcat

做宿主机端口映射（外部访问内部Tomcat容器，需要做端口映射，否则无法访问）docker run -p 8000:8080 -d tomcat #后台运行。拉取Tomcat镜像命令：docker pull tomcat:latest。docker run -p 8000:8080 tomcat #前台运行。#强制删除正在运行的Tomcat容器。（5）访问Tomcat（无需重启）（1）查看Tomcat 容器id。#强制删除tomcat 镜像。（2）进入Tomcat容器。#删除tomcat 镜像。

2022-11-09 10:54:59 501

原创 Docker容器化（2）：Docker安装部署

yum-utils是yum的安装工具包，可以简化安装过程中设置安装源的配置过程。docker内部容器如果需要进行数据存储，需要通过device-mapper-persistent-data和lvm2数据存储驱动来完成数据存储。地址：https://docs.docker.com/engine/install/centos/因为国外的安装源下载速度比较慢，所以可以设置为国内的阿里云安装源。地址：https://www.aliyun.com/#缓存软件包信息，提高搜索/安装软件的速度。

2022-11-09 10:52:30 401

原创 Docker容器化（1）：Docker架构原理

它封装的是软件的运行环境。容器本质是Linux里的进程，但容器通过Namespace和Cgroups，可有自己的root文件系统、网络配置、进程空间，甚至自己的用户ID空间，如此容器里的进程就像运行在宿主机上的另外一个单独的os内，从而实现与宿主机os里运行的其他进程隔离。多部署：在一台物理机上，可以创建多台虚拟机（可以利用如VMware软件），创建的每个虚拟机彼此间相互独立，每台虚拟机都拥有属于自己的软件和硬件资源，而且这些资源是彼此相互隔离的，其中一台虚拟机出现了问题，不会对其他虚拟机产生影响。

2022-11-09 10:49:29 1037

原创【大数据】9大实战项目解决你所有烦恼（写论文、找工作）

大数据9大实战项目，解决你写论文、找工作的难题。项目资料包：项目工具、安装包、配置文件、工程源码、数据集、PPT、操作文档。

2022-11-08 16:14:45 10364 8

原创 Java和Java大数据有什么区别？

分别提起Java或者大数据，很多人对此都一目了然，但对于Java大数据这样一个新鲜名词，多少有些疑惑。那Java和Java大数据学习的内容是一样的吗？两者有什么区别呢？今天就从Java和Java大数据的以下方面谈谈两者的区别。

2022-10-06 16:56:06 2951

原创 2022最全大数据学习路线（建议收藏）

本人目前是一名大数据高级工程师，项目数据容量100P+，日处理数据量200T+，集群规模1000+节点，个人是Java前后端开发，因公司项目开发需要，边学习边做项目，四个月成功完成公司项目并成功转型大数据工程师，后经过长时间积累先后著书《实战大数据（Hadoop+Spark+Flink）》、《Hadoop大数据技术基础与应用》。

2022-10-06 16:14:06 9557

原创当我说转行大数据工程师时，众人笑我太疯癫，直到四个月后......

本人目前是一名大数据高级工程师，项目数据容量100P+，日处理数据量200T+，集群规模1000+节点，个人是Java前后端开发，因公司项目开发需要，边学习边做项目，四个月成功完成公司项目并成功转型大数据工程师，后经过长时间积累先后著书《实战大数据（Hadoop+Spark+Flink）》、《Hadoop大数据技术基础与应用》。

2022-10-06 15:22:40 4017 2

原创【百年会员】大数据从入门到入职|Hadoop|Spark|Flink|FlinkSQL|FlinkCDC|Clickhouse|开发|运维|离线|实时|数仓|ELK

大数据从入门到入职|Hadoop|Spark|Flink|FlinkSQL|FlinkCDC|Clickhouse|开发|运维|离线|实时|数仓|ELK

2022-09-26 15:42:00 744 2

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十六）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-09-15 16:18:53 529

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十五）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-31 15:00:07 671

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十四）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-30 16:20:56 962

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十三）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-25 15:30:45 855

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十二）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-16 15:14:02 466

原创数据库数据采集利器FlinkCDC

持续分享有用、有价值、精选的优质大数据干货致力于打造全网最优质的大数据专题

2022-08-10 15:26:10 4011

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十一）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-03 11:55:51 455

原创 Flink SQL搭建实时数仓DWD层

Flink SQL 搭建实时数仓，极大减少了开发复杂度，提高了项目开发效率

2022-08-01 17:59:26 1229

原创实时数仓架构演进及选型

为什么实时数仓越来越受欢迎？1.传统的离线数仓已经发展很多年，技术相对比较成熟，越来越多的公司把注意力放到了挑战性更高的实时上来；2.随着存量市场竞争的到来，对于速度的要求越来越快，T+1已经不能满足数据的获取要求。实时数仓的构建需求应运而生！...

2022-08-01 17:54:30 316

原创【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库

2022-08-01 16:31:53 337

原创 Clickhouse架构与设计

Column提供了数据的读取能力，DataType提供了序列化和反序列化，Block在这些对象的基础上实现了进一步的抽象和封装，从而简化了整个使用的过程，仅通过Block对象就能完成一系列的数据操作。虽然Column和Field组成了数据的基本映射单元，但在实际操作中还缺少一些必要信息，如数据的类型和列的名称，于是ClickHouse设计了Block对象，ClickHouse内部的数据操作是面向Block对象进行的，Block对象可以看作是数据表的子集。让电脑的各个部件顺利工作，起到协调和控制作用。...

2022-07-27 17:05:03 2640

空空如也

空空如也