自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 资源 (2)
  • 收藏
  • 关注

转载 Hive优化—skew join优化原理详解

目录优化原理​编辑适用范围测试验证优化原理JOIN中倾斜键的处理思路最早是在HIVE-964中提出的,整体思路是使用独立的作业和mapjoin来处理倾斜的键。用以处理倾斜键的MR作业数是表的数量减一(we canstreamthe last table, so big keys in the last table will not be a problem)在执行JOIN的过程中,会将一个表中的大key(也就是倾斜的那部分数...

2022-05-30 21:09:55 2815 1

原创 Teradata在中国银行业的应用简介

1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.

2022-04-09 17:14:22 3270

原创 DMP和CDP有什么区别?

不只是DMP,CDP的概念也经常和数据仓库、CRM等概念弄混,下面我们来一起辨析一下。CDP 并非有一套严格的标准和执行流程,而是一种概念。这很像近年来大火的“数据中台”,实践过程中各有各的标准,并不能做到完全统一。与此同时,CDP 时常与数据管理平台(DMP)、数据湖、数据仓库的概念相混淆,也会因为都是以客户视角而与 CRM 产生交集。CDP 在功能上会与这些概念产生交集,而又不是完全相同。CDP 数据湖 DMP CRM 使用者 业务部门 数据&研发

2022-04-07 22:54:37 797 1

转载 全网最全正则匹配

前言:最近工作中用到了正则匹配,参考了以下两个网站,自己结合做了以下总结。脚本之家:脚本之家菜鸟教程:菜鸟教程正则匹配1、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文,英文字母和数字及下划线:^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}5、(?!_)  不能以_开头(?!.*?_$)  不能以_结尾[a-zA-Z0-9_\u4e0

2022-04-05 22:12:15 1532

原创 uTools:一个方法“改变”uTools的插件安装/数据目录

下面的方法只针对windows系统,不过mac也有自己的实现方法。其实就是软链接的简单应用啦ヾ(•ω•`)o我比较讨厌软件安装到C盘或者把数据一股脑儿往C盘塞,所以会有几个单独的分区用来存软件和数据(像vscode拓展,也可以像下面一样操作)具体操作是这样的:1. 退出uTools2. win+R 后输入%APPDATA%,找到uTools文件夹(假设目前uTools文件夹的路径是C:\Users\fakeuser\AppData\Roaming\uTools)3. 选中uTools文..

2022-04-03 22:16:11 1617

转载 HiveSQL技术原理、优化[深度解析]

1.Hive SQL 编译成MapReduce过程编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段: 词法、语法解析: Antlr 定义 SQL 的语法规则,完成 SQL 词法,语法解析,将 SQL 转化为抽象语法树 AST Tree; Antlr是一种语言识别的工具,可以用来构造领域语言。使用Antlr构造特定的语言只需要编写一个语法文件,定义词法和语法替换规则即可,Antlr.

2022-03-20 16:37:47 164

原创 Hivesql-高级进阶技巧

温故而知新,直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升!1.删除:insert overwrite tmp select * from tmp where id != '666';2.更新:insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id !

2022-03-20 15:15:57 178

原创 HIVE高级函数--get_json_object()和json_tuple()

将每一行数据存储为string,属性名lineget_json_object()select get_json_object(line,'$.movie') as movie, get_json_object(line,'$.rate') as rate, get_json_object(line,'$.timeStamp') as time, get_json_object(line,'$.uid') as uidfrom rate_json;json_tuple()...

2022-02-17 14:32:36 908

转载 linux shell 多线程执行程序

Shell中并没有真正意义的多线程,要实现多线程可以启动多个后端进程,最大程度利用cpu性能。直接看代码示例吧。(1) 顺序执行的代码#!/bin/bashdatefor i in `seq 1 5`do{ echo "sleep 5" sleep 5}donedate输出:Sat Nov 19 09:21:51 CST 2016sleep 5sleep 5sleep 5sleep 5sleep 5Sat Nov 19 09:22:16 CS

2021-12-16 16:51:44 414

原创 Like rlike在hive中的区别

Hive 中可以用 like 和 rlike 进行模糊匹配,like 采用的是 SQL 通配符,而 rlike 采用的是正则匹配。like%代替 0 或多个字符_代替一个字符举个例子:-- 返回值为 TRUEselect 'aaa' like '%a%'-- 返回值为 TRUEselect 'aaa' like '_a_'rlikerlike 采用正则表达式,以下总结几个常用的\: 转义用,序列 \\ 匹配 \^: 匹配输入字符串开始的位置$: 匹配输入字..

2021-11-28 20:07:25 1648

转载 hive lateral view 与 explode详解

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice欢迎大家star,留言,一起学习进步1.explodehive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in th

2021-11-22 18:17:11 370

转载 Hive中Map数据类型转String类型,其中具体内容不变

--上传测试数据drop table test_map_1;create table test_map_1 asselect 1 as uid, map("key1", "value1","key2", "value2") as map1 union all select 2 as uid, map("key3", "value3","key4", "value4") as map1;--查看当前测试表结构是否是map<string,string>类型hive> desc .

2021-11-22 18:00:07 3957

转载 case when的判断顺序_CASE 表达式

一、语法及作用使用CASE表达式可以帮助我们解决复杂的查询问题,相当于条件判断的函数,判断每一行是不是满足条件。CASE WHEN (判断表达式) THEN (表达式) WHEN (判断表达式) THEN (表达式) WHEN (判断表达式) THEN (表达式) .... ELSE(表达式)END;CASE 表达式会从对最初的WHEN子句中的“< 求值表达式 >”进行求值开始执行。所谓求值,就是要调查该表达式的真值是什么。如果结果为真...

2021-11-19 17:20:11 1363

原创 HiveSQL高级进阶技巧

直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升!1.删除:insert overwrite tmp select * from tmp where id != '666';2.更新:insert overwrite tmp select id,label, if(id = '1' and label = 'grade','25',value) as value from tmp where id != '666

2021-11-08 20:45:03 320

原创 存量客户管理之提额降息

消费金融行业在2017年进入发展高峰后,受限于逐渐趋严的监管政策以及2020年的疫情冲击,进入了行业洗牌和业务调整阶段。随着金融机构对新客获取更加谨慎,客户消费观念和消费信心趋向保守,无论是持牌的金融机构还是导流方,均逐渐加大投入资源运营存量客户。如何以客户价值目标、客户体验为过程对客户进行精细化管理是各机构越来越重视的内容。风险人员通过数据有效量化和控制风险,运营人员通过开发渠道及开展各种活动进行拉新和促活。一般来讲,风险和运营之间相互促进同时也互相制约,但是在贷中的存量客户管理环节,相对于贷

2021-10-08 15:29:55 530

转载 with as 语句真的会把数据存内存嘛?(源码剖析)

with as常见问题,大概有两类:1、为啥我用了with..as效率没有提高?2、sql跑不动,改成with..as的写法,会不会更好些?网上博客几乎都有结论with ... as语句会把数据放在内存:前言1:hive可以通过with查询来提高查询性能,因为先通过with语法将数据查询到内存(既然是加到内存中,如果数据量太大,估计会占用大量资源,可能会报内存溢出),然后后面其他查询可以直接使用,这种方法与创建临时表类似但是不需要创建临时表实体表,内存中的子查询结果再会话结束后会自动删除

2021-09-24 11:03:39 1784

原创 Hive高阶分析函数

1.GROUPINGSETS示例:实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。数据:+----------+----------+---+|year_month|date |pv |+----------+----------+---+|2015-04 |2015-04-12|10 ||2015-03 |2015-03-10|2 ||2015-03 |2015-03-..

2021-09-16 22:40:52 180

原创 关于贷后的8个专业名词解析

一、DPD(day past due)DPD的意思是逾期天数,指的是逾期用户在最早违期日期至目前日期的时间间隔,贷后催收时需要计算用户的逾期天数,并根据逾期的情况采用不同的催收手段。二、Mn、M1Mn的意思是逾期的期数,比如M1表示逾期一期,那么M2就代表逾期二期,M3就是逾期三期,M4就是逾期四期,M5就是逾期五期等。三、RPC(right public contact)RPC的意思是有效联系人,指的是在贷后用户逾期时,没有办法联系上逾期用户时,可以通过电话联系上逾期用户的直系亲属等。

2021-09-08 22:32:18 3700

转载 MongoDB和Elasticsearch的各使用场景对比

MongoDB vs Elasticsearch两者的定位MongoDB和Elasticsearch都属于NoSQL大家族, 且都属于文档型数据存储所以这两者的很多功能和特性高度重合, 但其实两者定位完全不同MongoDB 是 文档型数据库, 提供 数据存储和管理服务Elasticsearch 是搜索服务, 提供 数据检索服务两者的很大区别在于源数据的存储和管理MongoDB作为一个数据库产品, 是拥有源数据管理能力的Elasticsearch作为...

2021-09-07 17:06:13 4272

原创 MongoDB练习题

1.常见命令MongoDB - MongoDB是一个NoSQL的数据库 - MongoDB是一款文档型数据库 - 数据库指的就是一个存储数据的仓库 数据库可以使我们完成对数据的持久化的操作 - MongoDB数据库中存储的数据的基本单位就是文档, MongoDB中存储的就是文档,所谓文档其实就是一个“JSON” - MongoDB中的“JSON”我们称为BSON,比普通的JSON的功能要更加的强大 - MongoDB数据库使用的是JavaScript进行操作的,在MongoDB含有

2021-09-07 16:24:24 501

原创 MongoDB的CRUD

1.插入文档/* 向数据库插入文档 db.<collection>.insert() - 向集合中插入一个或多个文档 - 当我们向集合中插入文档时,如果没有给文档指定_id属性,则数据库会自动为文档添加_id 该属性用来作为文档的唯一标识 - _id我们可以自己指定,如果我们指定了数据库就不会在添加了,如果自己指定_id 也必须确保它的唯一性 db.collection

2021-09-07 16:10:14 47

原创 安装MongoDB

1.安装MongoDB - 安装 - 配置环境变量 C:\Program Files\MongoDB\Server\3.2\bin - 在c盘根目录 - 创建一个文件夹 data - 在data中创建一个文件夹db - 打开cmd命令行窗口 - 输入 mongod 启动mongodb服务器 - 32位注意: 启动服务器时,需要输入如下内容 ...

2021-09-07 16:05:19 41

原创 Mongoose的链接和model优化

1.链接优化1.1.创建tools文件夹,并创建conn_mongo文件/* 定义一个模块,用来链接MongoDB数据库*/var mongoose = require("mongoose");mongoose.connect("mongo://127.0.0.1/mongoose_test",{useMongoClient:true});mongoose.connect.once("open",function(){ console.log("数据库连接成功~~~"

2021-09-02 23:04:41 111

原创 Hive 查看库有多少表,表有多少字段以及动态监控

--1.查看hive的数据库中有多少表eg:hive -e "use test;show tables;" | wc -l--2.查看hive的一张表有多少个字段eg:hive -e "use test;describe test.ywb_test07;"| wc -l引申出: 1.通过shell,结果写入到一个文件中,在通过监控实现动态监测前后两端的表结构是否发生变化; 2.基于1,将更改之后的字段加工成为新的建表语句,可以实现,在h...

2021-09-02 15:47:39 4638

转载 Flink笔记--深度全面总结

Flink 基础Flink特性流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很小的场景中有性能瓶颈,Spark 本身也在尝试连续执行模式(Continuous Processing),但进展缓慢。Flink是一个低延迟、高吞吐的实时计算引擎,其利用分布式一致性快照实现检查点容错机制,并实现了更好的状态管理,Flink可在毫秒级的延迟下

2021-09-01 14:06:07 478

原创 通用的实时数仓构建方法与实践

本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。 01 实时场景 02 实时技术及架构 1. 实时计算技术选型 2. 实时架构 03 业

2021-08-31 16:08:32 87

原创 数据仓库--拉链表

1.拉链表概述1.1.什么是拉链表 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效日期。 如果当前信息至今有效,在生效结束日期中填入一个极大值,如(9999-99-99)2.2.为什么要做拉链表拉链表适合于:数据会发生变化,但是变化频率并不高的维度(即:缓慢变化维度) 比如:用户信息会发生变化,但是每天变化的比例不高。如果数据量有一定规模,按照每日全量的方式保存...

2021-08-17 16:54:40 166

原创 用户画像-标签体系(dwt层)

1 前言最近在学习用户画像,翻看了七十多份资料,简单过了一遍赵宏田老师的书,最近又看了许多微信公众号里的文章。整体感受就是,资料太杂、内容太乱、重复的太多、相互间也会有些冲突。但大致可以归为两类:赵宏田老师的一套,另外其它的一套。有那么七八张图在各种文档、公众号文章里反复出现,我也搞不清楚哪个是原创了。用户画像的描述至少在六个地方看到连文字都是一样的。本来想着直接抄一下权威老师的作业就好了,但发现了一些问题,比如标签分类违背了分类的基本原则、混淆了标签与标签取值的区别。可能是我较真了但还是希

2021-08-17 11:15:09 891

原创 Hive 中的Mapper Reducer个数 决定因素

1.Mapper个数Hive 中的Mapper个数的是由以下几个参数确定的:mapred.min.split.size,mapred.max.split.size,dfs.block.sizesplitSize =Math.max(minSize, Math.min(maxSize, blockSize));map个数还与inputfilles的个数有关,如果有2个输入文件,即使总大小小于blocksize,也会产生2个map2.Reducer个数我们每次执行hive的hql时...

2021-08-10 10:47:08 1295

转载 数据分析报告怎么写(五)

什么是缺乏策略性的数据分析建议呢?答案就是“就数论数,脱离过程”。所以,要想用策略性思维提好建议,就需要深入到问题发生的过程中,并提出具体的建议动作。你不要光报数字!要做策略性思考!要提出可行的建议!很多做数据的同学都被领导、同事这么吆喝过。然而,什么是策略性思考呢???大家往往一听到这种词,就有同学急不可耐的掏出《麦肯锡方法》之类的镇山法宝,或者在网上搜《底层思维》、《核心逻辑》、《分析框架》之类的文章。结果除了“裂变”“痛点”“颠覆”这些似懂非懂的词以外屁都没有记住,下次写报告还是继续同比、

2021-08-09 14:17:01 202

转载 数据分析报告怎么写(四)

作为消费者,我们最喜欢各大APP做活动了,有优惠呀!很多数据分析新人也喜欢,因为比起日报月报,活动分析看起来是个大活,真开心。然而,不小心的话,基于活动数据分析出的结论,经常被打脸,不信,马上试一试。 1.日报周报看不出个屁 2.用户画像得不出结论 3.活动分析报告被打脸 4.流失原因找不到是啥以上是数据分析师们写报告的时候最怕的四大场景。之前已经分享了前俩,今天来分享第三个。一、常见的打脸瞬间场景一请听题:很多同学...

2021-08-06 15:54:16 417

原创 Hive 数据倾斜问题定位排查及解决(实战)

多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据倾斜的代码。表结构描述先来了解下这些表中我

2021-08-06 10:30:35 1037 1

原创 Hive的Map Join与Common Join

笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。一、Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶段。Map阶段读取源表的数据,Map输出时候以Join on条件中的列为key,如果Join有多个关联键,则以这些关联

2021-08-06 10:22:43 167

原创 Hive 常用设置配置

set mapreduce.job.queuename=product01;set mapred.job.name=dw.dw_bloodsugar_full${dt};set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions=1000;set hive.exec.max.dynamic.partitions.pe.

2021-08-06 10:12:54 323

原创 数据分析--商业报告实例

商业报告思路如下https://zhuanlan.zhihu.com/p/142216065本文主要通过对阿里云平台2012.7-2015母婴商品做一份商业分析报告数据挖掘和数据分析核心就是用科学的手段验证两个东西,就是a和b之前是否存在相关性以及因果性。很多报告、甚至研究都只发现了相关性,利用相关性系数就能得出;还要用假设检验来得出因果性关系才算完整。1.分析背景数据集背景介绍政策:2011年11月,中国各地全面实施双独二孩政策;2013年12月,中国实施单独二孩政...

2021-08-05 16:43:27 1810 1

转载 数据分析报告怎么写(三)

写报告是一回事,讲报告又是另一回事。很多新人抱怨,每天只有日报、周报、月报的常规报表,压根没有做真正分析的机会。可往往给了机会,让他做一个报告给大家听,开讲5分钟台下听众就纷纷掏出手机,愉悦的搓了起来——怎么破!今天我们就举个简单的例子看看。假设一个公司有5个业务线,业绩如下图,受疫情影响,2、3月份业绩很惨淡,为提升业绩,市场部在4月开展活动,全场8折,不设门槛,全员参加!活动开展到15号,已产生的业绩数据如下图(业绩在全月均匀产生,不存在月底冲量):该企业各部门分工如下:销售部:负责各.

2021-08-05 16:35:27 688

转载 数据分析报告怎么写(二)

数据分析报告有2种模式:你问我答、我说你听。如果是你问我答,那我们回答的是对方提出的问题,自然得到的关注很高。这时候就不是写的报告没人看,而是被人各种挑刺了。写出来没人看的,常常是我说你听型报告。是滴,就是那些最消耗体力,却最不受待见的销售/产品/运营日报、周报、月报、季报、半年报、年报。今天我们就专门来分享一下,这种情况咋办。假设你要处理的报告数据如下,看完思考一分钟:你要怎么报告,才能让别人愿意听。一、让别人听的秘籍一个残酷的真相是:数据是很重要,很多人是需要每天看数据..

2021-08-05 16:22:33 210

转载 数据分析报告怎么写(一)

今天我们就还原到工作场景中,看看数据分析报告该怎么写。数据分析报告有两种基本模式: 1.你问我答:有明确的问题要解答 2.我说你听:无明确问题,需要从常规数据中解读今天先讲:你问我答。因为有明确问题,所以回答起来更聚焦,容易讲解。一、初级报告请大家看上图,然后自己先作答:1.昨天的销售业绩是多少 2.明天的销售业绩是多少 3.今天的销售业绩是多思考一分钟……问题1解读大家记得这个标准:一问一答,...

2021-08-05 16:03:16 3398 1

转载 数据分析报告应该包含的内容

1、首先你需要根据活动目标确定你的目标达成率,完成百分比,提升百分比。这是这次活动取得的成果,在一开始就写。如:本次活动 uv 24w(20w,↑ 20%),uv价值 3.6(3,↑ 20%)2、如果是发周报、月报之类的数据,接下来就应该是核心数据走势图在这张图里,要对每个数据的拐点做分析,比如图中11月7日、8日两天的uv价值有明显提升,这个的原因,要找到并写在报告里。3、接下来流量分析,主要为流量来源分布,各渠道流量转化率分析。流量涨了,要找到是哪个渠道带来的流量涨了,为什么涨.

2021-08-05 15:54:40 572

原创 一文读懂-Impala

第一章.Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.2.1 优点基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。 无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,...

2021-07-28 20:21:38 108

数据分析全面解读.xmind

数据分析全面解读 1.定义与分类 2.工作内容 3.能力要求 4.推荐学习资料

2022-03-20

《数据资产管理实践白皮书4.0》.pdf

数据资产

2021-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除