- 博客(1941)
- 收藏
- 关注
转载 4w字Spark调优宝典(推荐收藏)
1 性能调优1分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...
2021-06-25 09:00:00 839
转载 spark shuffle的几种特殊情况
1.shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipe...
2021-06-15 09:00:00 765
原创 数仓建模方法论
1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。
2021-06-12 20:12:51 2259 1
转载 那些被问懵逼的数仓面试题
数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范4). 数仓架构分层:一般分为操...
2020-12-16 08:34:00 868
转载 8种ETL算法模型汇总大全!看完你就全明白了
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加...
2020-12-07 17:55:22 2590
原创 浪尖聊聊大数据从业者的迷茫及解决方案
最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...
2020-12-06 16:08:14 1378 5
转载 面试|不可不知的十大Hive调优技巧最佳实践
Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...
2020-11-18 09:00:00 655
原创 面试|spark刷爆磁盘与java弱引用的关系
一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...
2020-11-11 08:35:34 300
转载 Hbase Bulkload 原理|面试必备
当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...
2020-11-10 08:59:49 1221
原创 漫画|讲解一下如何写简历&项目
star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...
2020-11-06 08:19:00 871
原创 漫画面试回答kafka为何如此之快|满分
一 磁盘读写原理磁盘的结构图:当需要从磁盘读取数据时,要确定读的数据在哪个磁道,哪个扇区:首先必须找到柱面,即磁头需要移动对准相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间;然后目标...
2020-10-29 08:18:00 2618 11
转载 大数据开源框架技术汇总
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...
2020-10-25 09:38:32 3119 1
原创 漫画讲解Kafka高效的存储设计|面试
在开始讲解之前,先带着大家回忆一下kafka一些名词概念:a. Broker:提供数据存储和数据读写服务实例,一个Kafka节点就是一个broker,多个broker可以组成一个Kafk...
2020-10-22 08:25:00 758
原创 漫画全面解释Spark企业调优点
一:资源配置一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。减去系统及hdfs所需cor...
2020-10-18 20:43:40 808 4
转载 为什么 IDEA 建议去掉 StringBuilder,而要使用 “+” 拼接字符串?
前言各位小伙伴在字符串拼接时应该都见过下面这种提示:内容翻译:报告StringBuffer、StringBuilder或StringJoiner的任何用法,这些用法可以用单个java.lang.String串联来替换。使用字符串串联可以使代码更短、更简单。只有当得到的串联至少与原始代码一样高效或更高效时,此检查才会报告。大家普遍认知中,字符串拼接要使用StringBuilder,那为什么idea会...
2024-03-27 08:30:43 2
转载 1w+ 字深入解读 Flink SQL 实现流处理的核心技术!
本文摘编于《Flink SQL 与 DataStream 入门、进阶与实战》,作者羊艺超。使用SQL实现流处理的核心技术在了解了Table\SQL API的使用方法以及作业运行机制之后,接下来分析SQL实现流处理的核心技术。为什么要分析这个问题呢?因为传统的关系代数以及SQL最开始是为了批处理设计的,在传统关系型数据库以及批处理中,数据都是有界的,因此SQL语句的执行过程比较好理解,但是在流处理中...
2024-03-26 09:00:31 8
转载 不好意思,ELK 该换了!
最近客户有个新需求,就是想查看网站的访问情况,由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的页面,咱也做不到成熟的日志解决方案,那就是ELK,还有现在比较火的Loki,(当然还有很多其他解决方案,比如Splunk、Datadog等),那我们这个小网站,小体量,必然是选择Loki来做。所以这次就采用 Nginx+Pr...
2024-03-26 09:00:31 12
转载 MapReduce和Spark的区别,使用场景
Apache Spark与MapReduce都是处理大规模数据集的强大框架,但它们在设计理念、性能以及使用场景上存在显著的差异。MapReduceMapReduce是一种编程模型,用于在大型计算集群上并行处理大数据集。它主要由两个阶段组成:Map阶段和Reduce阶段,之间通过磁盘进行数据交换。特点:稳定且成熟:作为Hadoop生态系统的核心,MapReduce是经过广泛测试和使用的稳定计算模型。...
2024-03-25 09:00:48 13
转载 什么是数据仓库的架构?企业数据仓库架构如何建设?
全文共4102字,建议阅读11分钟企业数据仓库架构关于数据仓库,有一种简单粗暴的说法,就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集,提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力,我们讲集中讨论最本质的问题,在不考虑过多技术细节的情况下,整个层次架构可以被划分为4层:原...
2024-03-21 21:18:37 11
原创 香喷喷面试题之static
在 Java 中,关于static局部变量和普通局部变量的区别,首先需要明确一点:Java 实际上不支持在方法内部声明static局部变量。static关键字主要用于类级别的变量和方法,而不是局部变量。因此,下面的讨论基于对static变量(类变量)和普通局部变量的比较:static变量(类变量)与普通局部变量的区别:生命周期:static变量:它们在程序开始时创建,在程序结束时销毁。static...
2024-03-18 08:30:42 295
转载 redis分布式锁的原理及java的实现代码
Redis 分布式锁的原理Redis 分布式锁主要是利用了 Redis 的命令和特性来实现锁的机制。核心思想是使用 Redis 的SETNX或SET命令(带选项PX和NX),这些命令可以保证在多个客户端之间的互斥访问。锁的获取:使用SET key value NX PX milliseconds命令尝试设置一个键值对,其中NX表示仅当键不存在时才进行设置,PX millise...
2024-03-15 09:00:28 17
转载 在设计Kafka Topic时,如何决定Partition的数量?
在设计Kafka主题(Topic)时,确定分区(Partition)的数量是一个关键决策,它会直接影响到Kafka集群的性能、吞吐量和可伸缩性。以下是决定分区数量时需要考虑的几个关键因素:1. 吞吐量需求高吞吐量的应用可能需要更多的分区来并行处理数据。增加分区数量可以提高并发度,从而提高整体的处理能力。2. 并发消费者数量分区的数量也限制了可以并发消费Topic的消费者数量。每个消费者组中的消费者...
2024-03-11 08:31:02 28
原创 简单回顾java垃圾回收器发展史|面试
Java垃圾回收器(GC)的发展史体现了Java平台对性能优化的不断追求,旨在满足各种应用场景下对吞吐量、延迟和资源利用率的不同需求。以下是Java垃圾回收器发展的主要里程碑:1. 早期的垃圾回收器串行垃圾回收器(Serial GC):Java初始版本中的默认GC,使用单线程进行垃圾回收,适用于小型应用和低并发环境。由于它在执行垃圾回收时会暂停所有应用线程(Stop-The-World, STW)...
2024-03-10 09:30:38 431
转载 Java序列化与反序列化三连问:是什么?为什么要?如何做?
Java序列化与反序列化是Java编程语言中的一个核心概念,涉及到对象的转换过程以及数据持久化和传输。分别解答提出的三个问题:Java序列化是什么?Java序列化是一个将对象转换为字节序列的过程,使得这个字节序列可以被存储到磁盘上或通过网络传输到另一个网络节点。当对象被序列化时,对象的状态和类型信息被保存下来,以便在未来可以重新构建这个对象,无论是在同一个应用程序中还是在另一个应用程序中。2. 为...
2024-03-01 21:02:58 30
转载 突发!刚刚公布:全体数据分析从业者的重大利好来了!!!
作为席卷全球的新概念ESG已然成为当前各个行业关注的最热风口近期国内官方发布了一项ESG新证书含金量五颗星、中文ESG证书、完整ESG考试体系、名师主讲...甚至在行业圈成为大佬们的热门话题...01 ESG为什么重要?在双碳的大背景下,ESG已然成为了各个行业关注的发展重点战略板块。无论是科技企业还是金融、环保、法律、建筑、化工、互联网、财会审计等等各个行业都在加紧布局,ESG定会成为下一个重要...
2024-02-29 09:00:27 33
原创 如何让chatgpt4当大数据架构师?
前两天浪尖试着爬知乎问题,然后让chatgpt回答,回答了4个问题,被知乎发现了两个,????,答案被折叠了。。。。。通过两天对chatgpt4的测试发现,chatgpt4是真强。浪尖这里搜了一个知乎问题,然后让chatgpt回答,然后不好的地方再给提示,然后让他再回答。问题如下:Hadoop 和 BI 如何结合?搭建一个基于 Hadoop+Hive 的数据仓库,它的前端展现如何实现?如何实现 BI?c...
2024-02-27 08:30:25 898
转载 模型设计、数据架构、数据治理一体化大数据平台
全文共计3656字,预计阅读时间8分钟本文目录:一、模型设计 1.1 维度建模或实体关系建模 1.2 星型模型和雪花模型 1.3 数据分层 1.4 数据基础层 1.5 数据中间层 1.6 数据集市层二、数据架构 2.1 数据整合 2.2 数据服务化 2.3 架构设计中一些实用的点三、数据治理 3.1 数据质量 3.2 数据生命周期管理随着互联网规模不断的扩大,数据也在爆炸式地...
2024-02-25 12:35:50 35
转载 Flink在涂鸦防护体系中的应用
一、引言随着互联网的快速发展,数据量呈爆炸性增长,安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心,无法满足实时、高效的需求。为了解决这一问题,Flink作为一种实时数据处理框架,逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。一、Flink介绍Flink是一个开源的分布式流处理框架,被设计用于对无界和有界数据流进行有...
2024-02-21 21:56:51 25
转载 微信为什么使用 SQLite 保存聊天记录?
SQLite 是一个被大家低估的数据库,但有些人认为它是一个不适合生产环境使用的玩具数据库。事实上,SQLite 是一个非常可靠的数据库,它可以处理 TB 级的数据,但它没有网络层。接下来,本文将与大家共同探讨 SQLite 在过去一年中最新的 SQL 功能。SQLite “只是”一个库,它不是传统意义上的服务器。因此,在某些场合下,它确实不合适。但是,在相当多的其他场合,它却是最合适的选择。SQ...
2024-02-20 09:00:37 23
转载 Flink 流批一体在 Shopee 的大规模实践
01流批一体在 Shopee 的应用场景首先,先来了解一下 Flink 在 Shopee 的使用情况。除了流任务,仅从支持的批任务来看,Flink 平台上的作业已经到达了一个比较大的规模。目前 Flink 批任务已经在 Shopee 内部超过 60 个 Project 上使用,作业数量也超过了 1000,这些作业在调度系统的支持下,每天会生成超过 5000 个实例来支持各个业务线。从应用场景划分,...
2024-02-19 09:02:43 34
转载 开源大数据 OLAP 的思考及最佳实践
01开源 OLAP 综述近年来开源领域涌现出了众多优秀产品,如 StarRocks、Doris、湖数据、湖格式、Spark 以及早期的 HBase、Presto 等。种类繁多的开源工具为用户带来了便利,同时也带来了选择难题。上图中对各种数据库做了简单的分类。例如,StarRocks、Doris 和 CK 等,它们在过去主要是存算一体的 AP 数据库。而 Presto、Trino 和 Impala ...
2024-02-18 09:01:12 43
转载 5000字构建企业数据治理体系(建议收藏)
全文共4925个字,建议阅读10分钟数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会...
2024-02-17 11:51:10 23
转载 月薪已炒到15w?真心建议大家人冲一冲新兴领域,工资高前景好!!!
ESG真的火了!“企业ESG部门经理月薪10-15万,应届生起薪2-4万,已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注?ESG绝对能排在前三。作为行业新风口,ESG几乎席卷和覆盖了各大领域!这股风潮正在全行业悄然蔓延,大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人,到底有多香?各大企业要想可持续发展、ESG作为投资的重要...
2024-02-14 09:00:21 33
转载 4000字读懂实时数仓的过去现在和未来(建议收藏)
点击上方 "大数据肌肉猿"关注,星标一起成长点击下方链接,进入高质量学习交流群今日更新| 1052个转型案例分享-大数据交流群1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。我们所常说的企业数据仓库Enterprise Data Warehouse (EDW) ,就是一个用于聚合不...
2024-02-01 09:00:35 47
转载 突发!刚刚公布: 全体数据人狂欢吧!!
ESG真的火了!“企业ESG部门经理月薪10-15万,应届生起薪2-4万,已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注?ESG绝对能排在前三。作为行业新风口,ESG几乎席卷和覆盖了各大领域!这股风潮正在全行业悄然蔓延,大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人,到底有多香?各大企业要想可持续发展、ESG作为投资的重要...
2024-01-31 09:01:22 38
转载 Flink 2.0 状态管理存算分离架构演进
摘要:本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享,梅源结合阿里内部的实践,分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。内容主要分为以下五部分:1.引言2.为什么状态对 Flink 如此重要3.状态存储提升 —— 社区和商业版状态存储4.状态管理存算分离架构 —— 架构演进和挑战5. 总结01引言我们...
2024-01-26 08:26:31 61
转载 深入讲解四种数仓建模理论方法
数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建,这个决定了数仓的复用和性能,本文将介绍四种建模的理论:维度建模、关系建模、Data Vault建模、Anchor模型建模,文后也介绍几种常见的数仓建模工具。一、数仓建模的目标在了解数仓建模理论方法前,要先清楚我们建模的目的是什么,目标又在哪里,建模要到达什么样的效果?访问性能:能够快速查询所需的数据,减少数据I/O。数据成本:减少不必...
2024-01-23 21:28:18 103
转载 Spark+Celeborn:更快,更稳,更弹性
摘要:本篇内容主要分为三个部分:1.传统 Shuffle 的问题2.Apache Celeborn (Incubating)简介3.Celeborn 在性能、稳定性、弹性上的设计一、传统Shuffle的问题Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象,RDD 血缘通过...
2024-01-21 18:50:28 78
转载 提前恭喜!全体数据人要彻底炸锅了!这波好消息来的太突然!
ESG真的火了!“企业ESG部门经理月薪10-15万,应届生起薪2-4万,已经算个正常薪资水平。” ESG猎头如是说。01 求职新风口 ESG火爆网络要说这两年哪些词最热门且最受行业关注?ESG绝对能排在前三。作为行业新风口,ESG几乎席卷和覆盖了各大领域!这股风潮正在全行业悄然蔓延,大家暗戳戳“卷”起了关于ESG的一切。懂ESG的数据人,到底有多香?各大企业要想可持续发展、ESG作为投资的重要...
2024-01-17 09:02:39 44
转载 基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地
01京东零售实时计算的现状1.1 现状技术门槛高、学习成本大、开发周期长。行业内实时开发能力只有少数人能够掌握的现状;数据开发迭代效率比较低,重复逻辑反复的开发缺少复用;测试运维难,复杂业务逻辑难以局部测试。1.2动力降本增效、节省人力,助力高效开发;多角色数据开发,不同角色对应不同的开发方式,非数据人员也能做数据开发的工作。1.3 目标降低数据开发门槛,通过标准化积木式的开发,实现低代码配置化...
2024-01-13 22:26:45 58
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人