KubeData-CSDN博客

原创从源码角度看看HDFS多副本机制的实现

对于本文副本策略的内容的学习,我们了解了副本放置策略的概念、方法、原理实现(源码层) , 最后我们来归纳总结一下设计要点:HDFS默认使用的副本策略设计要点:可靠性：Block 存储在两个机架上, 如果其中一个机架网络出现异常 , 可以保证在其它机架的Datanode上找到数据。写操作：写操作数据传输仅进行一次网络传输 , 减少了机架间的数据传输, 提高了写操作的效率。

2024-05-07 10:55:02 844 1

原创一篇Starrocks查询加速特性的测试报告

本文的所有测试数据集均采用Starrocks所提供的标准TPC-H数据集测试测试环境如下：机器类型：性能保障型X6机器规格：16C64G （FE 三台，CN 三台）云盘类型：ESSD_PL1Starrocks配置：存算分离数据集：TPC-H 100G 数据集。

2024-05-07 10:54:21 863

原创 k8s常见问题：如何处理CrashLoopBackOff问题？

首先关于CrashLoopBackOff并不是代表一种错误， "CrashLoopBackOff 是 Kubernetes 中的一个状态，表示在一个 Pod 中发生的重启循环：Pod 中的一个容器启动之后发生了问题，然后反复重启。Kubernetes 会在重启之间等待逐渐增加的退避时间，我们在发现CrashLoopBackOff之后可以对集群进行及时的修复。因此，CrashLoopBackOff 本身并不是一个问题，而是表明有一个错误在发生，阻止了 Pod 正确启动。

2024-05-07 10:53:47 746

原创流批一体的近实时数仓的思考与设计

计算延迟在不同的数仓体系下，产生的时效不同，我们会划分为三种主流的数仓体系，秒级的实时数仓，分钟级的近实时数仓，小时级的离线数仓。那么我们先来看一下数据的时间旅行。近些年来，不断发展的 MPP 架构的 OLAP 查询引擎，并不会涉及到时间窗口的计算取舍，OLAP 引擎本质是基于 ProcessTime 来加速查询的一种技术手段，是数仓不可分割的一部分，但是传输延迟的不可控没有解决，但是将计算延迟下推到了查询时，通过快速查询来解决尽可能减少计算延迟，同时保证了查询的灵活性，自助分析探索上有着广泛的应用。

2024-05-07 10:52:57 815

原创聊聊数据库vs数据仓库vs数据湖

又会有男装、女装、童装，在选择男装之后呢？有些同学会追求时髦前沿技术，不管业务需求是什么样的，直接就上数据湖架构，这样其实是一种不负责任的表现，单纯的以自己实践为主，业务需求为次的行为。其实，细心的观察会发现，在整个架构演进过程中不仅仅是离线、实时两个计算场景的演进，在存储层也在不断演进，从最开始的单纯离线数仓以结构化存储为主、后来实时+离线数仓存储以流+结构化存储为主，再后来计算和存储分离，计算层更加轻量化，而且计算天然是无状态的，存储可以灵活的选择不同的介质，所以，整个数据存储以半结构化、结构化为主。

2024-05-07 10:49:55 682

原创做了两年数仓，积累的12条SQL调优技巧

本文是作者本人做数仓调优时，所经常使用的SQL调优技巧，这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的，对于下面这12条（不算多，但特别有用）调优小“技巧”，希望能帮助阅读本文的同学能够在日常编写分析语句时，提升任务执行的效率。但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM。好了，以上这十二条虽然不多，并且看起来简单，你可以作为一种复习来看，那么对于刚开始做不久的同学，可以将这些技巧严格的执行在日常工作中，并且希望你具备一定的调优的意识。

2024-05-07 10:49:03 701

原创云数据仓库Snowflake论文完整版解读

云计算的出现标志着从在本地服务器上交付和执行软件，转向共享数据中心和基于云的软件即服务 (SaaS) 解决方案。云共享基础架构承诺实现规模经济、极端可扩展性和可用性，并采用按使用量付费的成本模型来适应不可预测的使用需求。但是，只有当软件本身能够弹性地扩展到云资源池时，才能利用这些优势。传统数据仓库解决方案早于云计算。它们旨在运行在小型静态群集上，这使它们成为较差的体系结构选择。

2024-03-28 21:30:28 1186

原创大数据做「AI大模型」数据清洗调优基础篇

其次，对于像HDFS这种分布式文件系统来说，为了控制数据同步的速率，可以通过DN的bandwith来控制台数据复制的带宽大小，如果服务本身的这种带宽限制比较小的话呢，也会影响数据同步的效率，所以一般而言，要根据整个集群的规模大小，所处的场景是单纯存储还是单纯计算还是存储和计算都有，如果是单存储场景的话，那么这个值就建议调大一些，可以放到Gb级别（注意：HDFS里面的带宽单位是大B，一个Byte等于8个bit，通常网卡传输是bit来传输的）当进行数据持续大量导入的时候，那么这里我们就要面临几个问题？

2024-03-28 21:22:00 829

原创 Starrocks基于主机和容器的读写测试

本文重点从基础性能方面对Starorcks进行了再不同规格、不同资源类型、不同并发下面的性能对比，从而也验证了在CPU和内存配比方面，1:4的配比是更为合适的资源配比，这对于Starorcks的资源选型方面提供了一定参考意义。后面我们还有对于Starrocks不同特性开启之后，对于读写性能的提升，比如异步物化视图、查询队列、中间结果落盘、Pipeline Engine 、QueryCache等相关特性的提升来输出相关报告如果想进一步交流的话，欢迎加我 V：kubedata分享创造价值、交流促进成长。

2024-03-28 21:19:11 818

原创工作十年总结的六条面试技巧，助力你拿到理想的offer

近些年来，社保面试、校招面试、实习生面试大大小小差不多有1000人，我就发现有些面试者比较擅长于做“埋伏”，他会引导面试官朝着他自己熟悉的领域、熟悉的技术栈、熟悉的内容来提问，这样面试官一旦提问了相关问题，他就可以不断输出，这种对于面试感受也是非常好的

2024-01-16 22:12:35 820 1

原创 HBase集群写入出现大量毛刺排查

组件服务调优是一项比较艰难的事情，需要很强的意志力才能去排查各项指标，各项参数去对比，希望通过此文能分享出问题排查的基本思路

2024-01-16 09:28:38 950 1

原创干货分享｜使用Yarn标签机制实现任务资源隔离

在 Hadoop YARN 中，标签（Labels）机制是一种资源管理的特性，它允许你对节点和应用程序进行分类，可以有效地进行资源管理和调度。接下来，本文会分别从节点标签和应用标签两个方面来演示YARN标签01：启用Yarn标签功能02： Yarn集群中添加标签执行完addToClusterNodeLabels命令之后，查看yarn界面多了两个标签，但是6个节点的资源还在default标签：03： Namenode节点关联标签在yarn-site.xml中配置对应NodeManager所属标签。

2024-01-15 21:55:20 512

原创大数据离在线混部场景资源调度的演进与选型

我们发现Kubernetes 并不是一定就比Hadoop Yarn的调度能力要好，甚至在兼容性、数据本地存储、权限限制等方面也存在诸多不足，OK，回归到技术架构设计的根本问题就是：适合OR不适合？怎么来判断是否适合做云原生化建设？可以建议你从一下几个方面来综合考虑：集群规模是否足够大：集群规模足够大之后，从数据跨区域存储、集群容错性、计算作业跨区域调度、数据存储成本。

2024-01-15 20:54:03 853

原创一文了解数据库vs数据仓库vs数据湖

在实际工作中，我们应该如何选择使用OLTP数据库还是OLAP数据仓库还是数据湖呢？有些同学会追求时髦前沿技术，不管业务需求是什么样的，直接就上数据湖架构，这样其实是一种不负责任的表现，单纯的以自己实践为主，业务需求为次的行为。这时候就需要架构师来评估具体业务的场景以及未来发展（2-3年）来看，最适合的架构模型是那种，而不是直接就上新技术，一般技术在2-3年会有一个迭代周期，你无法保证现在选择的技术栈未来看就是最优的。那么我建议从一下几个方面来进行选择

2024-01-14 22:33:30 982 1

原创程序员如何构建自己的「护城河」

所谓的护城河，更多的是个人职业发展的可持续性，而不被太多因素影响到职业发展和生活水平，是要自己有不断成长的思维，在自己的经济财务没有达到完全自由的时候，将注意力和精力更多的放在能提升工作价值和个人价值的事情

2024-01-14 19:33:04 859 1

原创 HDFS 机架感知配置导致数据不均衡

HDFS 机架感知是一种逻辑上的网络架构设计，它主要是用来区分不同节点的网络拓扑情况下，保证数据是能够高性能写入和查询的一种机制，毕竟跨网络的数据读写是有网络带宽消耗的，当没有配置机架信息时，所有的机器hadoop都默认在同一个默认的机架下，名为 “/default-rack”，这种情况下，任何一台datanode机器，不管物理上是否属于同一个机架，都会被认为是在同一个机架下，此时，就很容易出现之前提到的增添机架间网络负载的情况。

2024-01-14 18:53:59 1014 1

原创一文详细了解大数据离在线混部架构模型

本文详细讲解了关于大数据离在线混部的背景，简单来讲，就是将多个应用服务部署在同一个节点中，提升节点的CPU和内存资源的利用率，将机器效能发挥到最大，帮助企业能够最大化的提升IT资源的利用率，从而减少IT资源成本投入，起到降本增效的作用

2024-01-14 18:52:25 1379 1

原创企业级数据平台云原生转型之路

本文详细讲解了数据平台构建的背景，并深入讲解了基于hadoop生态构建数据平台所面临的问题，最后基于云原生技术如何构建数据平台，本文给出了详细的方案。

2024-01-14 18:40:03 1195 1

原创 Hive元数据迁移及升级方案

本文详细介绍了关于hive元数据迁移和升级的两种方案，Hive 是基于Hadoop之上的数仓，便于用户可以基于SQL（Hive QL）进行数据分析，

2023-11-08 22:17:42 439

原创一文搞懂什么是 DaemonSets

DeamonSets类似于Replica Sets，因为它们可以帮助我们部署多个pod实例，但是它在Kubernetes集群的每个节点上只运行一个pod副本。DaemonSets确保所有(或部分)节点运行Pod的副本。随着节点被添加到集群中，pod也被添加到集群中，当节点从集群中移除时，这些pod将会被删除。

2023-11-08 21:50:29 198

原创 Apache SeaTunnel：新一代高性能、分布式、海量数据集成工具从入门到实践

本文介绍Apache SeaTunnel 以及关于Apache SeaTunnel的部署和使用。Apache SeaTunnel是新一代高性能、分布式、海量数据集成工具，支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步，可以稳定高效地同步万亿级数据，

2023-11-08 21:38:36 3845 3

分享云原生大数据技术和个人成长、职业发展相关内容