自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 从源码角度看看HDFS多副本机制的实现

对于本文副本策略的内容的学习,我们了解了副本放置策略的概念、方法、原理实现(源码层) , 最后我们来归纳总结一下设计要点:HDFS默认使用的副本策略设计要点:可靠性:Block 存储在两个机架上, 如果其中一个机架网络出现异常 , 可以保证在其它机架的Datanode上找到数据。写操作:写操作数据传输仅进行一次网络传输 , 减少了机架间的数据传输, 提高了写操作的效率。

2024-05-07 10:55:02 844 1

原创 一篇Starrocks查询加速特性的测试报告

本文的所有测试数据集均采用Starrocks所提供的标准TPC-H数据集测试测试环境如下:机器类型:性能保障型X6机器规格:16C64G (FE 三台 ,CN 三台)云盘类型:ESSD_PL1Starrocks配置:存算分离数据集:TPC-H 100G 数据集。

2024-05-07 10:54:21 863

原创 k8s常见问题:如何处理CrashLoopBackOff问题?

首先关于CrashLoopBackOff并不是代表一种错误, "CrashLoopBackOff 是 Kubernetes 中的一个状态,表示在一个 Pod 中发生的重启循环:Pod 中的一个容器启动之后发生了问题,然后反复重启。Kubernetes 会在重启之间等待逐渐增加的退避时间,我们在发现CrashLoopBackOff之后可以对集群进行及时的修复。因此,CrashLoopBackOff 本身并不是一个问题,而是表明有一个错误在发生,阻止了 Pod 正确启动。

2024-05-07 10:53:47 746

原创 流批一体的近实时数仓的思考与设计

计算延迟在不同的数仓体系下,产生的时效不同,我们会划分为三种主流的数仓体系,秒级的实时数仓,分钟级的近实时数仓,小时级的离线数仓。那么我们先来看一下数据的时间旅行。近些年来,不断发展的 MPP 架构的 OLAP 查询引擎,并不会涉及到时间窗口的计算取舍,OLAP 引擎本质是基于 ProcessTime 来加速查询的一种技术手段,是数仓不可分割的一部分,但是传输延迟的不可控没有解决,但是将计算延迟下推到了查询时,通过快速查询来解决尽可能减少计算延迟,同时保证了查询的灵活性,自助分析探索上有着广泛的应用。

2024-05-07 10:52:57 815

原创 聊聊数据库vs数据仓库vs数据湖

又会有男装、女装、童装,在选择男装之后呢?有些同学会追求时髦前沿技术,不管业务需求是什么样的,直接就上数据湖架构,这样其实是一种不负责任的表现,单纯的以自己实践为主,业务需求为次的行为。其实,细心的观察会发现,在整个架构演进过程中不仅仅是离线、实时两个计算场景的演进,在存储层也在不断演进,从最开始的单纯离线数仓以结构化存储为主、后来实时+离线数仓存储以流+结构化存储为主,再后来计算和存储分离,计算层更加轻量化,而且计算天然是无状态的,存储可以灵活的选择不同的介质,所以,整个数据存储以半结构化、结构化为主。

2024-05-07 10:49:55 682

原创 做了两年数仓,积累的12条SQL调优技巧

本文是作者本人做数仓调优时,所经常使用的SQL调优技巧,这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的,对于下面这12条(不算多,但特别有用)调优小“技巧”,希望能帮助阅读本文的同学能够在日常编写分析语句时,提升任务执行的效率。但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM。好了,以上这十二条虽然不多,并且看起来简单,你可以作为一种复习来看,那么对于刚开始做不久的同学,可以将这些技巧严格的执行在日常工作中,并且希望你具备一定的调优的意识。

2024-05-07 10:49:03 701

原创 云数据仓库Snowflake论文完整版解读

云计算的出现标志着从在本地服务器上交付和执行软件,转向共享数据中心和基于云的软件即服务 (SaaS) 解决方案。云共享基础架构承诺实现规模经济、极端可扩展性和可用性,并采用按使用量付费的成本模型来适应不可预测的使用需求。但是,只有当软件本身能够弹性地扩展到云资源池时,才能利用这些优势。传统数据仓库解决方案早于云计算。它们旨在运行在小型静态群集上,这使它们成为较差的体系结构选择。

2024-03-28 21:30:28 1186

原创 大数据做「AI大模型」数据清洗调优基础篇

其次,对于像HDFS这种分布式文件系统来说,为了控制数据同步的速率,可以通过DN的bandwith来控制台数据复制的带宽大小,如果服务本身的这种带宽限制比较小的话呢,也会影响数据同步的效率,所以一般而言,要根据整个集群的规模大小,所处的场景是单纯存储还是单纯计算还是存储和计算都有,如果是单存储场景的话,那么这个值就建议调大一些,可以放到Gb级别(注意:HDFS里面的带宽单位是大B,一个Byte等于8个bit,通常网卡传输是bit来传输的)当进行数据持续大量导入的时候,那么这里我们就要面临几个问题?

2024-03-28 21:22:00 829

原创 Starrocks基于主机和容器的读写测试

本文重点从基础性能方面对Starorcks进行了再不同规格、不同资源类型、不同并发下面的性能对比,从而也验证了在CPU和内存配比方面,1:4的配比是更为合适的资源配比,这对于Starorcks的资源选型方面提供了一定参考意义。后面我们还有对于Starrocks不同特性开启之后,对于读写性能的提升,比如异步物化视图、查询队列、中间结果落盘、Pipeline Engine 、QueryCache等相关特性的提升来输出相关报告如果想进一步交流的话,欢迎加我 V:kubedata分享创造价值、交流促进成长。

2024-03-28 21:19:11 818

原创 工作十年总结的六条面试技巧,助力你拿到理想的offer

近些年来,社保面试、校招面试、实习生面试大大小小差不多有1000人,我就发现有些面试者比较擅长于做“埋伏”,他会引导面试官朝着他自己熟悉的领域、熟悉的技术栈、熟悉的内容来提问,这样面试官一旦提问了相关问题,他就可以不断输出,这种对于面试感受也是非常好的

2024-01-16 22:12:35 820 1

原创 HBase集群写入出现大量毛刺排查

组件服务调优是一项比较艰难的事情,需要很强的意志力才能去排查各项指标,各项参数去对比,希望通过此文能分享出问题排查的基本思路

2024-01-16 09:28:38 950 1

原创 干货分享|使用Yarn标签机制实现任务资源隔离

在 Hadoop YARN 中,标签(Labels)机制是一种资源管理的特性,它允许你对节点和应用程序进行分类,可以有效地进行资源管理和调度。接下来,本文会分别从节点标签和应用标签两个方面来演示YARN标签01: 启用Yarn标签功能02: Yarn集群中添加标签执行完addToClusterNodeLabels命令之后,查看yarn界面多了两个标签,但是6个节点的资源还在default标签:03: Namenode节点关联标签在yarn-site.xml中配置对应NodeManager所属标签。

2024-01-15 21:55:20 512

原创 大数据离在线混部场景资源调度的演进与选型

我们发现Kubernetes 并不是一定就比Hadoop Yarn的调度能力要好,甚至在兼容性、数据本地存储、权限限制等方面也存在诸多不足,OK,回归到技术架构设计的根本问题就是:适合OR不适合?怎么来判断是否适合做云原生化建设?可以建议你从一下几个方面来综合考虑:集群规模是否足够大:集群规模足够大之后,从数据跨区域存储、集群容错性、计算作业跨区域调度、数据存储成本。

2024-01-15 20:54:03 853

原创 一文了解数据库vs数据仓库vs数据湖

在实际工作中,我们应该如何选择使用OLTP数据库还是OLAP数据仓库还是数据湖呢?有些同学会追求时髦前沿技术,不管业务需求是什么样的,直接就上数据湖架构,这样其实是一种不负责任的表现,单纯的以自己实践为主,业务需求为次的行为。这时候就需要架构师来评估具体业务的场景以及未来发展(2-3年)来看,最适合的架构模型是那种,而不是直接就上新技术,一般技术在2-3年会有一个迭代周期,你无法保证现在选择的技术栈未来看就是最优的。那么我建议从一下几个方面来进行选择

2024-01-14 22:33:30 982 1

原创 程序员如何构建自己的「护城河」

所谓的护城河,更多的是个人职业发展的可持续性,而不被太多因素影响到职业发展和生活水平,是要自己有不断成长的思维,在自己的经济财务没有达到完全自由的时候,将注意力和精力更多的放在能提升工作价值和个人价值的事情

2024-01-14 19:33:04 859 1

原创 HDFS 机架感知配置导致数据不均衡

HDFS 机架感知是一种逻辑上的网络架构设计,它主要是用来区分不同节点的网络拓扑情况下,保证数据是能够高性能写入和查询的一种机制,毕竟跨网络的数据读写是有网络带宽消耗的,当没有配置机架信息时,所有的机器hadoop都默认在同一个默认的机架下,名为 “/default-rack”,这种情况下,任何一台datanode机器,不管物理上是否属于同一个机架,都会被认为是在同一个机架下,此时,就很容易出现之前提到的增添机架间网络负载的情况。

2024-01-14 18:53:59 1014 1

原创 一文详细了解大数据离在线混部架构模型

本文详细讲解了关于大数据离在线混部的背景,简单来讲,就是将多个应用服务部署在同一个节点中,提升节点的CPU和内存资源的利用率,将机器效能发挥到最大,帮助企业能够最大化的提升IT资源的利用率,从而减少IT资源成本投入,起到降本增效的作用

2024-01-14 18:52:25 1379 1

原创 企业级数据平台云原生转型之路

本文详细讲解了数据平台构建的背景,并深入讲解了基于hadoop生态构建数据平台所面临的问题,最后基于云原生技术如何构建数据平台,本文给出了详细的方案。

2024-01-14 18:40:03 1195 1

原创 Hive元数据迁移及升级方案

本文详细介绍了关于hive元数据迁移和升级的两种方案,Hive 是基于Hadoop之上的数仓,便于用户可以基于SQL(Hive QL)进行数据分析,

2023-11-08 22:17:42 439

原创 一文搞懂什么是 DaemonSets

DeamonSets类似于Replica Sets,因为它们可以帮助我们部署多个pod实例,但是它在Kubernetes集群的每个节点上只运行一个pod副本。DaemonSets确保所有(或部分)节点运行Pod的副本。随着节点被添加到集群中,pod也被添加到集群中,当节点从集群中移除时,这些pod将会被删除。

2023-11-08 21:50:29 198

原创 Apache SeaTunnel:新一代高性能、分布式、海量数据集成工具从入门到实践

本文介绍Apache SeaTunnel 以及关于Apache SeaTunnel的部署和使用。Apache SeaTunnel是新一代高性能、分布式、海量数据集成工具,支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据,

2023-11-08 21:38:36 3845 3

SqliteExPertSetup + License.Key

解压之后安装SqliteExpert 然后 导入License.Key文件

2014-08-15

css网页布局教程

css网页布局从入门到精通。好资源呢。

2012-06-27

asp.net代码

很好呢。asp.net代码大全,值得一用的资源。

2012-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除