涤生大数据-CSDN博客

原创迁移策略：CDH 集群整体平缓迁移的最佳实践

1.通过cm控制台停止源主机的JournalNode服务，然后将编辑目录（参数。

2024-02-29 09:15:00 883

原创涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（下）

计算链路较短，但如果发生Flink任务重启的情况，需要离线和实时两条线一起修复数据：离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00，共计三步。非T日新增的老用户的数据在ODPS表里已存在，odps2hbase时会覆盖掉hbase表中现有数据，都更新为ODPS表数据，这样在hbase结果表里，T日之前的老用户累计数据都是正确的；（如上，27号的数据既要参与27日当日的实时计算，也要参与28号的实时计算）。

2024-02-21 10:00:00 1710

原创 23年秋招结束，同学们陆陆续续拿到心仪的offer！24年秋招出发！

算法（笔试），SQL（笔试和手撕），大数据组件的原理，数仓的八股要结合项目说，自己写的项目要非常熟悉，wiki里的必背就是必背，经常会问，可以先过一遍，然后整理适合自己表达方式的话术去记忆。投递简历可以早点投，从提前批就开始（七月底），因为有的正式批池子都已经满了，认真对待模拟面试，有助于锻炼表达能力，真正面试就是放平心态就好了。录屏、录音等。这样方便自我复盘，不懂的点也可以找老师帮忙复盘一下，在面试中不断完善自己的知识架构、项目架构体系以及其他方面的问题。最后，24届的秋招即将告一段落！

2024-02-18 14:15:00 1759 1

原创深入理解Spark BlockManager：定义、原理与实践

Spark是一个开源的大数据处理框架，其主要特点是高性能、易用性以及可扩展性。在Spark中，BlockManager是其核心组件之一，

2024-02-08 07:45:00 1713

原创涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

当一个用户在T日实时上传了自己的跑步记录，Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1，Flink节点2会根据该用户id取hbase维表里查询其 [历史～T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新，即T-1日的存量累计汇总数据)，将data1和data2二者汇总，就可得到用户历史至此时刻的汇总数据；在凌晨时分，ODPS计算T-1日数据期间，如果发生了对T-1日的数据查询，则无法获取到期望的T-1日数据，会继续使用T-2日的数据。

2024-02-05 12:08:37 1444

原创大数据实战：Ambari开发手册之OpenTSDB快速集成技巧

用于描述这个服务，服务的组件和管理脚本用于执行命令。一个组件的服务可以是MASTER,SLAVE或CLIENT类别。这个<category>告诉Ambari默认命令应该用于管理和监控组件。为每个组件指定<commandScript >执行命令时使用。有一个默认命令定义组件必须支持。

2024-02-01 16:30:00 933

原创解析线上HBase集群CPU飙高的原因与解决方案

jstack是Java开发工具包（JDK）中提供的一个命令行工具，用于生成Java虚拟机（JVM）中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息：所有线程的堆栈跟踪：jstack命令会输出JVM中所有线程的堆栈跟踪信息，包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的执行路径和可能的问题。死锁检测：jstack命令可以检测并输出JVM中的死锁情况。它会显示死锁的线程以及导致死锁的资源。

2024-01-29 17:00:00 1925

原创 Flink：快速掌握批处理数据源的创建方法

本文收集了实现领域的反馈，因为javadoc无法涵盖高性能和可维护源的所有实现细节。希望你喜欢这篇文章，并且它给了你为Flink项目贡献一个新连接器的愿望!Flink：快速掌握批处理数据源的创建方法。

2024-01-25 07:15:00 948

原创开发实战角度：distinct实现原理及具体优化总结

Distinct是一种常用的操作，在所有数据库的SQl语言中都是一个非常重要的操作，。基本原理是将输入的数据集按照指定的列进行分组，在每个分组内部去除重复的值，最后将每个分组的唯一值合并成一个结果集。最近一位好学的小伙伴在学习的过程中，学习到count distinct 的这块内容的时候，，今天就来给大家总结一下。group by的操作适合我们的聚合时distinct息息相关的，所以在我们总结distinct 之前，我们不得不先来看一下group by 操作的具体实现原理。

2024-01-22 09:40:56 984

原创高级开发必备技能：如何建设一个规范化数仓？

本章节为什么较多从面试角度体系话介绍数仓规范呢，主要是很多同学给宇哥反馈在求职面试的时候，在问到数仓规范相关的面试题的时候，发现直接没办法体系化专业化的介绍出来，只能零散的介绍出一些片段，最后在面试当中失利。在规范制定阶段，往往都是由有一位数仓团队leader或架构师，或者由不同部分的核心开发人员合作（当然这些人员一般都是具备成熟数仓建设经验的，都是对数仓规范有相当认识的同学），以充分考虑公司实际情况，并参考行业标准或已有的规范来制定规范。这有助于消除数据孤岛，提高协作和对数据的信任。

2024-01-17 08:45:00 819

原创有趣的事，讲给有趣的人听

后来找到我，咨询了很久，问题很多，各种谨小慎微，脑洞的问题，起初我是拒绝的（主要那段时间我们带的同学也多，他事也多哈），后来陆续找了我几回，我被他打动了，于是大家一起开始了学习之路。但是遗憾的是并不是两情相悦，其实在爱情里，男人都是笨拙不堪的，总喜欢吹冲锋号，不懂得大迂回大包抄，往往就是直接把妹子吓走，然后自己原地傻B了，他亦是如此。两年多的涤生大数据，认识了形形色色的小伙伴，陆续沟通下来6000多人，彼时他们来自全国的各个角落，不同的教育背景，不同的性格，不同的工作环境，不同的视野见识。

2024-01-14 16:15:00 860

原创深入比较：报表与BI商业智能的异同，清晰职位定位，请不要再把二者混为一谈！

随着计算机性能的提高和数据库技术的成熟，和对数据价值价值更深层次的探索的需求，虽然报表工具在特定用途下非常有用，但为了弥补报表工具的局限性，并满足更广泛的数据分需求。：解决业务和IT之间的“报表需求拉扯”，同时帮业务解决“我有一堆业务数据，我知道这数据有用，可我不知道怎么用，但BI可以帮助我去生成一些展示及指标体系，给到我分析数据的启发”的问题，偏向“数据需求变化多且快，想带着问题去探索分析数据的阶段，数据交互性较高，适合从信息化往数字化转型过渡的企业”。这有助于用户更好地理解数据的变化和趋势。

2024-01-11 09:55:20 959

原创初学者必备Java工厂模式：简化对象创建过程，提升代码可维护性与扩展性

简单工厂模式有唯一的工厂类，工厂类的创建方法根据传入的参数做if-else条件判断，决定最终创建什么样的产品对象。如图所示，每一个产品类都对应着一个工厂类，当产品数量很多的时候，工厂类的数量也会越来越多，搞得系统非常复杂。要想解决掉if-else的问题，我们可以为每一个牙刷子类创建对应的工厂子类，这些工厂子类分别实现抽象的工厂接口。抽象工厂模式把产品子类进行分组，同组中的不同产品由同一个工厂子类的不同方法负责创建，从而减少了工厂子类的数量。这背后是面向对象的多态特性。

2024-01-06 17:45:00 852

原创新能源趋势下一个简单的数仓项目，助力理解数仓模型

目前国家政策的主导之下，新能源相关项目和公司的竞争愈演愈烈，很多新能源公司开始大规模的布局数仓，来从自己的产生的大量的数据中提取价值，进而在新能源市场有自己的一席之地。这里假设我们的数据源是一个新能源公司的数据库，包含以下几张表：electricity_meter, solar_panel, weather_data。这些表包含了电表读数、太阳能板数据和天气数据等信息。接下来，我们以Scala为开发语言，Spark为计算引擎，演示一个完整的项目代码，非常容易理解一个业务的数仓开发建设。

2024-01-03 07:45:00 395

原创轻松应对面试手撕SQL之TopN问题，数开面试必考系列二（社招校招均适用）

为了不受并列成绩的影响，使用row_number专用窗口函数：row_number函数：也就是不考虑并列名次的情况。比如前3名是并列的名次，排名是正常的1，2，3，4。2.将表按学生姓名分组后，把成绩按降序排列，排在最前面的3个就是我们要找的“成绩最高的3个学生”。这里是“每个学校,每个年级,每个科目”，结合表的结构，是按学生“学校、年级、科目”来分组。举例：根据下面示例数据选出, 今年每个学校,每个年级,每个科目前三的学生姓名和他的成绩。类似的问题还有很多，我们都可以用上面的模板来处理。

2023-12-30 09:15:00 720

原创面试必备之单例设计模式详解

概念：单例设计模式是一种常用的软件设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。作用：单例模式能够有效地控制对象的创建和资源的利用，提高程序的性能，并且在多线程环境下也能保证只有一个实例被创建。让我们来看下Singleton类的特征：1.Singleton类的构造方法是私有的，这样可以保证只能在Singleton类内部才能创建对象，而无法在类外部创建Singleton对象。2.Singleton类中有一个instance成员属性，它用来持有这个Singleton对象。

2023-12-25 11:27:07 74

原创数据处理演进：EtLT崛起，ELT正在告别历史舞台

在谈论数据处理时，人们经常将其缩写为“ETL”。然而，如果我们仔细观察，数据处理从ETL、ELT、XX ETL（如Reverse ETL、Zero-ETL）到目前流行的EtLT架构经历了多次迭代。虽然Hadoop时代主要依赖ELT（Extract、Load、Transform）方法，但实时数据仓库和数据湖的兴起使得ELT变得过时。EtLT 已成为将数据实时加载到数据湖和实时数据仓库的标准架构。

2023-12-23 10:15:00 5216 1

原创企业实战总结：SQL Join执行的常见问题及解决方案

需要注意的是mapjoin括号中的表是小表侧，而且是不能当做可能会补null的一边，也就是left join的左表，right join的右表，full join的两端，否则就算是写了hint也也不起作用。数据倾斜也是join中的一类常见问题，例如要对在购物车的商品以商品id做关联，总是免不了出现部分热门商品在购物车的次数远远超出平均值的情况。这时会出现严重的长尾。这里tbl3的join key为k1，tbl2的join key是k1, k2，tbl3的join key更短，可以放在前面。

2023-12-20 10:00:00 119

原创大厂数仓专家漫谈数据仓库的魅力与作用！

数据仓库（Data Warehouse）的官方定义可以根据不同的权威来源略有不同，但通常情况下，以下是数据仓库的官方定义：1.Inmon的定义（由Bill Inmon提出，被认为是数据仓库领域的先驱）：数据仓库是“集成的、主题导向的、非易失性的、时间变化的数据集合，用于支持管理决策制定过程”。a.集成的：数据仓库将来自不同源系统的数据集成到一个统一的存储中，消除了数据的分散性。b.主题导向的：数据仓库是以主题或业务需求为导向的，而不是以特定的应用程序或业务过程为导向。

2023-12-16 17:15:00 89

原创大厂数仓专家实战分享：企业级埋点管理与应用

埋点（Event Tracking），是互联网数据采集工作中的一个俗称，正式应该叫事件跟踪，英文为 Event Tracking，它主要是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

2023-12-13 09:00:00 92

原创校招面试技巧：如何回答好一个问题

今天分享的主题是“如何回答好一个问题”。通过与同学们进行交流，发现一个比较普遍的现象，大家在回答问题时，时常会让面试官觉得自己在背八股，从而影响面试官的印象。那么我们应该怎么避免这种情况呢？

2023-12-09 13:45:00 76

原创 Hbase 迁移小结：从实践中总结出的最佳迁移策略

在数据存储和处理领域，HBase作为一种分布式、可扩展的NoSQL数据库，被广泛应用于大规模数据的存储和分析。然而，随着业务需求的变化和技术发展的进步，有时候我们需要将现有的HBase数据迁移到其他环境或存储系统。HBase数据迁移是一个复杂而关键的任务，它涉及到保证数据完整性、准确性和安全性，同时还需要考虑版本兼容性、网络带宽、数据量等因素。

2023-12-06 08:45:00 412

原创含泪整理的超全窗口函数：数据开发必备

我们首先来谈谈什么是窗口函数，窗口函数是指，在指定的数据滑动窗口中，实现各种统计分析的操作。窗口函数是与分析函数一起使用，或按照专用窗口函数使用，组成比如：窗口聚合函数、窗口排序函数等实用函数。说过了什么是窗口函数，明白什么是窗口函数，所以以后面试过程中问到什么是窗口函数，不要在简单的说排序啦，接下来我们在谈谈具体有哪些函数。相信介绍到这里，我们对于什么是窗口函数，有哪些窗口函数都有了一个全面的认识了，面试中我们就按照这样的分类一一介绍，来打动我们的面试官。划分的范围被称为窗口，这也是窗口函数的由来。

2023-12-02 10:00:00 126

原创还在担心秋招吗？看看24届已上岸同学的经验分享！

2）项目经历提问（占比80%）：结合项目+八股回答。最常问的包括数仓分层理论、维度建模、事实表维度表区别、Hive SQL优化等。

2023-11-28 08:15:00 106

原创 Hadoop实践指南：揭秘HDFS元数据并解析案例

元数据（Metadata），描述数据的数据（data about data）。元数据：关于文件或目录的描述信息，如文件所在路径、文件名称、文件类型等等，这些信息称为文件的元数据metadata命名空间：文件系统中，为了便于管理存储介质上的，给每个目录、目录中的文件、子目录都起了名字，这样形成的层级结构，称之为命名空间；HDFS元数据：文件目录树、所有的文件（目录）名称、文件属性（生成时间、副本、权限）、每个文件的块列表、每个block块所在的datanode列表；

2023-11-25 10:45:00 408 1

原创大数据平台实践之CDH6.2.1+spark3.3.0+kyuubi-1.6.0

前言：关于kyuubi的原理和功能这里不做详细的介绍，感兴趣的同学可以直通官网：https://kyuubi.readthedocs.io/en/v1.7.1-rc0/index.html。

2023-11-22 15:30:00 269

原创大厂数仓专家实战分享：企业级埋点管理与应用

埋点（Event Tracking），是互联网数据采集工作中的一个俗称，正式应该叫事件跟踪，英文为 Event Tracking，它主要是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

2023-11-19 10:15:00 123

原创校招面试技巧：如何回答好一个问题

Q：项目中说到了小文件问题的处理，可以具体讲一下吗？

2023-11-16 09:15:00 83

原创 Hbase 迁移小结：从实践中总结出的最佳迁移策略

在数据存储和处理领域，HBase作为一种分布式、可扩展的NoSQL数据库，被广泛应用于大规模数据的存储和分析。然而，随着业务需求的变化和技术发展的进步，有时候我们需要将现有的HBase数据迁移到其他环境或存储系统。HBase数据迁移是一个复杂而关键的任务，它涉及到保证数据完整性、准确性和安全性，同时还需要考虑版本兼容性、网络带宽、数据量等因素。

2023-11-11 07:15:00 622

原创含泪整理的超全窗口函数：数据开发必备

我们可以使用last_value(col,true/false) over()，作用是：取分组内排序后，截止到当前行，最后一个值。所以，如果使用 order by 排序的时候，想要取最后一个值，需要与 rows between unbounded preceding and unbounded following 连用。1.当第二个参数为 true 的时候，会跳过空值；2.当 over() 中不指定排序的时候，会默认使用表中数据的原排序。

2023-11-08 09:50:31 502

原创数据质量的新篇章：大厂专家分享离线与实时数据建设经验

数据质量是悬在每个数据同学头顶的达摩克里斯之剑。一旦我们对其缺少敬畏，或是我们的“武器”不够丰富，缺乏有效的质量保障措施；这把剑就会无情落下。数据质量保障符合蝴蝶效应，只要数据链路上任何一个小的细节点出现问题，则实时数据的质量会大幅度下降，因此需要构建数据质量的全链路监控，从数据研发到数据消费都需要重点监控，并通过一定的流程机制保障数据参与方的规范性，以此来保障数据全生命周期的质量健康度。本文会结合离线和实时数据建设场景谈谈对数据质量全链路建设认知。

2023-10-31 10:15:00 156

原创还在担心秋招吗？看看24届已上岸同学的经验分享！

2）项目经历提问（占比80%）：结合项目+八股回答。最常问的包括数仓分层理论、维度建模、事实表维度表区别、Hive SQL优化等。

2023-10-27 15:30:00 122

原创 MapReduce任务个数如何影响执行效率？性能优化从这里做起

在我们的整个验证过程中， Hive中的SQL演示，在日常的数据分析工作中是很常见的。同样的SQL，同样规模数据，为啥运行时间不一样？可能并不是因为你写的SQL有问题，不妨思考下，会不会是底层存储的问题所以，课后作业来了：HDFS 小文件会带来哪些影响？

2023-10-17 20:15:00 273

原创大数据实战：用户画像之标签如何治理

以上就是我们从几个维度对治理标签的探讨，其实不管是数据治理，还是标签治理，个人觉得最重要的是要能合理的评估出来收益。像标签安全，比较重要的，如果敏感数据未脱敏，并且超过一定范围，直接给0分。所有维度权重加起来等于100%，具体实际权重可以根据目标和关注点进行调整。如果最终评分太低的话，我们就可以对标签进行优化调整或者下线的操作。

2023-10-14 09:45:00 191

原创还不知道Java类加载机制，你算白学了

Java代码在编译期间，是不知道最终引用的类型，具体指向内存中哪个位置的，这时候会用一个符号引用，来表示具体引用的目标是"谁"。Java虚拟机规范中明确定义了符号引用的形式，符合这个规范的前提下，符号引用可以是任意值，只要能通过这个值能定位到目标。直接引用就是可以直接或间接指向目标内存位置的指针或句柄。

2023-10-11 08:15:00 86

原创一文带你读懂scala中的隐式转换

（1）首先会在。

2023-10-07 17:15:00 209

原创还不知道数据类岗位的相关技能和职责吗？涤生大数据告诉你（二）

在日常工作中，数仓工程师更多扮演的角色是数据支撑和数据模型提供者的角色，例如一个报表需求，数仓工程师负责端到端全链路的数据开发工作，而bi工程师负责利用如tableau，finereport等报表工作基于数仓开发工程师提供的数据表实现报表展现工作。总体而言，BI工程师在负责将大量的业务数据转化为有价值的信息和洞察，并帮助决策者做出基于数据的决策，核心工作内容是实现业务指标的可视化，并转化为业务和管理成更加易于理解和决策的数据展现方式。，包括数据的抽取、转换、加载和存储等方面的工作。

2023-09-27 15:15:00 148

原创还不知道数据类岗位的相关技能和职责吗？涤生大数据告诉你（一）

很多同学在求职中对数据类岗位傻傻分不清楚，投递简历的时候胡乱投递，本篇文章给大家讲讲数仓开发，etl开发，数据开发，数据治理工程师，BI工程师以及数据运维工程师这些数据类岗位的工作职责以及和数仓开发的区别。同时为了大家更加深入地了解各岗位的区别，也给大家讲解了一下这些岗位在日常工作当中的一些工作交集。

2023-09-20 15:15:00 150

原创手把手教你搭建用户画像系统（入门篇下）

Hive是最基础的存储，主要存储标签计算结果集，跑spark作业或MapReduce作业，处理大量的数据集时使用。存储一些数量级较少的标签。MySQL的读写不用跑mapreduce作业，对于小量的数据读写速度很快。用于存储元数据、标签量级的监控、一些表加工结果的状态位、业务系统中读取的一些数据。存储线上推荐给用户的实时性较强的数据,在画像产品化章节中有讲到圈人服务，业务方根据规则圈定人群后进一步通过分析明确该人群是其要运营的人群后，将该人群推送到相应的业务系统中，有的业务系统使用hbase提供服务。

2023-09-13 09:45:00 129

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

腾讯大数据安全体系架构与介绍.pdf

Python3.5官方文档中文版本chm格式

程序员的薪资天花板是多少？