自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

老姜的数据江湖

致力于大数据数仓、数据治理以及周边技术分享~

  • 博客(8)
  • 收藏
  • 关注

原创 一个完整的关于数仓构建的流程

介绍大数据数仓构建全流程,对整体0-1构建数仓提供整体思路。

2022-09-26 11:17:59 1417 1

原创 大数据调度平台oozie、azkaban、dolphinscheduler对比

大数据调度平台目前多样化,如何选择适合自己公司得调度平台,老姜给大家罗列三种调度平台性能对比。DolphinSchedulerAzkabanOozie定位解决数据处理流程中错综复杂的依赖关系为了解决Hadoop的任务依赖关系问题管理Hdoop作业(job)的工作流程调度管理系统任务类型支持支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、su

2021-11-09 16:07:14 5901

原创 HQL 报 return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 错误解决方案

执行一段HQL之后,报了如下错误FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTas此错误只能通过yarn 日志进行查看,通过查看发现报OOM,解决OOM问题不能单纯增加计算空间,比如MAP以及REDUCE计算空间。我们首先看一下日志错误阶段,通过日志观察实在STAGE2阶段的map阶段就报错,并没有到REDUCE阶段。那我们就可以来看看这段SQL explain 执行计划,

2021-11-03 10:41:09 14302

原创 大数据hive性能调优详解系列之hive架构层面调优_数仓工程师必备hive调优方案

大数据技术框架中,hive组件作为数仓工程师必不可缺少的计算框架组件。本篇文章是hive性能调优详解系列之第三篇hive语法层面调优。上两篇分别为hive 建设表层面调优hive 语法和参数层面调优更多内容请关注哔哩:老姜的数据江湖,微信公众号同步;Hive架构层面1.启用本地抓取Hive的某些SQL语句需要转换成MapReduce的操作,某些SQL语句就不需要转换成MapReduce操作,例如:1.只是select *的时候2.where条件针对分区字段进行筛选过滤时3.带有limi

2021-10-28 18:51:06 413

原创 hive性能调优详解系列之hive语法和参数层面调优_数仓工程师必备hive调优方案

hive作为数仓工程师必不可缺少的计算组件,在工作中经常遇到一些调优问题,本篇文章是hive性能调优详解系列之第二篇hive语法层面调优。上一篇可点击hive建表设计层面调优一.hive语法层面和参数调优hive语法和参数调优将是hive调优一大重点,并能间接解决数据倾斜问题,同事提升运行效率也是重中之重。1.1查看hive执行计划Hive的SQL语句在执行之前需要将SQL语句转换成MapReduce任务,因此需要了解具体的转换过 程,可以在SQL语句中输入如下命令查看具体的执行计划。##查看执

2021-10-27 16:57:21 1727

原创 Hive性能调优详解系列之hive建表设计层面调优_数仓工程师必备hive调优方案

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的从来不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。

2021-10-26 14:45:46 754

原创 大数据数仓建设流程方案,数仓设计流程,适用于实际工作场景

大数据数仓概念学术上:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理、运营决策。技术上:不可更新的,反映历史变化

2021-10-25 15:25:03 1239

原创 大数据数仓搭建-大数据用户画像推荐系统搭建

一 确定需求我把需求主要分为三大类一 离线数据报表需求二 实时观查数据走向需求三 算法需求二 确定系统架构根据需求我们目前有几种大数据架构可以供参考流式架构流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所...

2019-07-21 12:57:33 955 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除