自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

鲁边的博客

一个无趣的coder,做些有意思的事情

  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 实时数仓构建:Flink+OLAP查询的一些实践与思考

以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓,其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题

2024-04-15 20:43:19 902

原创 是的,本科毕业八年,我考研了

今天,是一篇纯分享文。是的,本科毕业八年,我考研了。停更10个月,历时296天,我考研上岸了。

2024-04-13 22:44:54 620

原创 hive窗口分析函数使用详解系列二之分组排序窗口函数

我们讨论面试中各大厂的SQL算法面试题,往往核心考点就在于窗口函数,所以掌握好了窗口函数,面对SQL算法面试往往事半功倍。

2024-04-13 22:19:13 649 2

原创 hive窗口分析函数使用详解系列一

Hive提供的窗口和分析函数可以分为聚合函数类窗口函数,分组排序类窗口函数,偏移量计算类窗口函数

2024-04-07 20:43:46 796 3

原创 什么是hive的高级分组聚合,它的用法和注意事项以及性能分析

使用高级分组聚合不仅可以简化SQL语句,而且通常情况下会提升SQL语句的性能。

2023-06-29 17:28:19 708

原创 HiveSQL在使用聚合类函数的时候性能分析和优化详解

带聚合函数的SQL逻辑,我们可以根据其执行过程的不同,将其分成三大类来进行分析:仅在Reduce阶段聚合的SQL执行逻辑在Map和Reduce阶段都有聚合操作的SQL执行逻辑高级分组聚合的执行SQL逻辑

2023-06-21 11:30:59 351 2

原创 Hive常见时间日期函数的使用与问题整理

hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。

2023-06-14 17:41:14 677 1

原创 Hive执行计划之只有map阶段SQL性能分析和解读

这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。

2023-06-13 17:25:50 379

原创 Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。

2023-06-09 20:26:37 1014

原创 Hive执行计划之hive依赖及权限查询和常见使用场景

如何在hiveSQL执行之前就探查到这段逻辑的血缘依赖关系

2023-06-07 20:46:55 397

原创 Hive执行计划之一文读懂Hive执行计划

Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。同样,通过执行计划,还可以了解到哪些不一样的SQL逻辑其实是等价的,哪些看似一样的逻辑其实是执行代价完全不一样。如果说Hive优化是一堵技术路上的高墙,那么关于Hive执行计划,就是爬上这堵高墙的一架梯子。不同版本的Hive会采用不同的方式生成的执行计划。

2023-06-06 19:54:57 1115 1

原创 hive向上取整、向下取整、保留小数位的函数

hive向上取整向下取整和保留小数位数的函数

2022-12-09 14:37:37 4101 1

原创 HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式

所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。

2022-09-02 18:49:50 1062 2

原创 Hive存储格式之ORC File详解,什么是ORC File

ORC并不是一个单纯的列式存储格式,它也遵循了先水平分区,再垂直分区的理念,采用混合存储结构。除了Hive,目前也被Spark SQL,Flink,Presto,Impala等查询引擎支持。

2022-08-25 09:55:20 2022 2

原创 什么是谓词下推,看这一篇就够了

所谓谓词下推,**就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据**。用在SQL优化上来说,就是先过滤再做聚合等操作。

2022-08-16 07:45:00 1509 1

原创 Hive存储格式之RCFile详解,RCFile的过去现在和未来

我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列文章。

2022-08-14 20:13:44 826 2

原创 什么是hive的静态分区和动态分区,hive动态分区详解

关于hive的静态分区和动态分区怎么用,又有什么区别呢,hive动态分区详解

2022-08-07 17:55:42 2190

原创 关于hive分区,你知道多少呢?

在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。

2022-08-01 22:26:57 1533

原创 安装oozieUI界面无法访问问题

前言:我用的是Ambari管理集群其他集群管理工具安装oozie和手动编译安装oozie,关于oozie的UI界面无法访问的问题,大致和该方法类似.找到下面4步骤里的视图显示的目录,有一个ext-2.2软链指向的路径lrwxrwxrwx 1 oozie hadoop 41 Dec 12 2018 ext-2.2 -> /usr/hdp/3.0.1.0-187/oozi...

2020-01-16 21:06:49 479

原创 Oozie任务调度框架详解及使用简介(一)

个人最近一段时间一直在使用oozie,从刚开始的各种别扭到现在越来越觉得有意思的情况下,想整理一下关于oozie的认知,整理出来一个oozie系列,本来市面上关于oozie的资料就比较少,希望写完后能形成自己对oozie的独特理解和加强整体性的把握.

2020-01-14 23:30:55 1505

原创 Linux下Python3的安装

在不卸载Python2版本的同时使用Python3.*切勿删除Python2,不然会出问题参考这篇文章 手抖把Python2.7卸载了,导致了自己的yum不可用环境: centos7.4版本:python3.81.依赖包安装yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel re...

2020-01-14 10:55:19 177 3

原创 手抖把Python2.7卸载了,导致了自己的yum不可用以及yum因python版本无法使用的问题

摘要:从标题就能看到我有多心如死灰了,简单介绍下我是如何自残的过程.①首先因为需要部署爬虫程序,然后安装Python3.②Python3系列和Python2系列版本不向下兼容,所以我就卸载了机器自带的Python2.7,删的干干净净.③然后我下载了Python3.8的包.④我开始使用yum命令安装Python3.8的相关依赖.⑤结果是发现yum不可用了,如下报错信息网上找的截图,大...

2020-01-14 10:26:37 993 1

原创 0成本搭建个人技术博客和个人网站

摘要:首先送上我的个人博客先睹为快鲁边的个人博客说说搭建个人博客的初衷,前段时间发现自己在博客网站上的文章配图没了,感觉很不可思议,就萌生了这样的想法,但真正驱使我去行动起来的原因是,最近有一次我发表了一篇文章,结果还要审核,最后告诉我审核不通过,好吧,我换了一个博客发表,结果给我封号了,封号了,心情一时难以言表.于是愤而起身,决定亲自搭建一个博客.下面我们看正文.一.前言如果时间算是...

2020-01-12 00:11:26 344

原创 sqlserver数据库邮件告警系统设置(二)之详细设置

sqlserver数据库邮件告警系统设置sqlserver库的邮件告警分两种:第一种是以SQL的方式发送邮件告警,需要配置配置文件第二种是通过sqlserver代理来完成对作业调度以及性能问题的告警,也是需要配置配置文件一.以SQL的方式发送邮件告警EXEC msdb.dbo.sp_send_dbmail@profile_name = 'BigData', -...

2019-10-26 09:30:07 1272

原创 sqlserver数据库邮件告警系统设置(一)

在数据执行过程中需要对数据执行成功失败,以及相关错误信息进行监控,就需要用到告警信息配置sqlserver库的邮件告警分两种:第一种是以SQL的方式发送邮件告警,需要配置配置文件第二种是通过sqlserver代理来完成对作业调度以及性能问题的告警,也是需要配置配置文件一.以SQL的方式发送邮件告警EXEC msdb.dbo.sp_send_dbmail@profile_na...

2019-10-26 09:02:12 854

原创 数据表定时清理数据和日志设计原理

数据库数据和日志设置定时清理原理(适用于数据仓库,累积历史性数据库表)1.新建一个记录需要清理数据的表select * from mid.[dbo].t_clear_data_table--插入数据脚本INSERT INTO mid.[dbo].[t_clear_data_table] ([dbName] --数据库名称 ,[schName...

2019-10-26 08:55:25 798

原创 sqoop定时导入(全量+增量)sqlserver数据到HDFS

sqoop定时导入(全量+增量)sqlserver数据到HDFS增量导入采用创建sqoop job的形式,定时加载job即可创建jobbin/sqoop job \--create s_ods_ol_user_app \-- import \--connect 'jdbc:sqlserver://10.31.24.236:1433;database=ODS_DB_V3' \--usern...

2018-05-14 18:48:44 3149

原创 sqoop全量导入与增量导入sqlserver数据

sqoop全量导入与增量导入sqlserver数据1.全量导入正常导入即可2.增量导入sqoop支持两种增量导入到hive的模式, 一种是 append,即通过指定一个递增的列,(如果没有可以插入一列自增的数)比如: --incremental append  --check-column id --last-value 0 另一种是可以根据时间戳,比如: --incremental lastmo...

2018-05-11 14:08:37 1717

原创 sqoop从sqlserver导入数据操作指令及hive创建表过程

sqoop从sqlserver导入数据操作指令及hive创建表过程

2018-05-10 17:15:59 6461

原创 Sqoop导入sqlserver数据到HDFS和hive上的配置需求及问题

Sqoop导入sqlserver数据到HDFS和hive上的配置需求及问题 1.安装,下载安装包解压即可 2.在系统环境变量中设置HADOOP_HOME,指向安装目录; 3. 3.在系统环境变量中设置SQOOP_HOME与SQOOP_CONF_DIR;SQOOP_HOME = sqoop安装的根目录;SQOOP_CONF_DIR=$SQOOP_HOME/conf; 4.首先配置jdbc的SqlSe...

2018-05-10 17:13:57 1009

原创 Hadoop的shell操作命令收集

Hadoop常用的操作命令:- - ls使用方法:hadoop fs -ls [-h] [-R] <args>功能:显示文件、目录信息。示例:hadoop fs -ls /user/hadoop/file1- - mkdir使用方法:hadoop fs -mkdir [-p] <paths>功能:在 hdfs 上创建目录,-p 表示会创建路径中的各级父目录。示例:hadoo...

2018-03-11 11:43:28 360

原创 关于Static的思考

在java的关键字中,static不可或缺,在一定情况下的使用,可以提高程序的运行性能,优化程序的结构.static关键字的常见用法1.修饰成员变量    static最常用的功能就是修饰类的属性和方法,让他们成为类的成员属性和方法,我们通常将static修饰的成员成为类成员或者静态成员,这是相对于对象的属性和方法来说的.    构建一个类,定义成员变量,    public class Pers...

2018-03-11 10:26:57 126

原创 Zookeeper集群安装

安装前准备1.安装jdk2.时间同步常用的手动进行时间的同步 date -s "2018-03-03 03:03:03"或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org3.检测防火墙是否关闭service iptables stopchkconfig iptables offchkconfig iptables --list4.配置主机ip映射修改...

2018-03-06 23:26:48 157

原创 shell编程语言注意要点

1 . $* 和$@ 区别相同点:都表示传递给脚本的所有参数。不同点:不被" "包含时,$*和$@都以$1 $2… $n 的形式组成参数列表。被" "包含时,"$*" 会将所有的参数作为一个整体,以"$1 $2 … $n"的形式组成一个整串;"$@" 会将各个参数分开,以"$1" "$2" … "$n" 的形式组成一个参数列表。2. Shell 运算

2018-03-05 16:21:03 268

原创 关于VMware的虚拟网络

VMware虚拟网络在安装虚拟机的时候会自动安装一个虚拟网卡我们在使用的时候需要接入交换机交换机:用于电(光)信号的转发.可以为接入交换机的任意两个网络节点提供独享的电信号通路.网络模式我们常用的交换机有三种VMnet0,VMnet1,VMnet8对应三种网络模式VMnet0--桥接模式虚拟网桥 是一个局域网与另一个局域网之间建立连接的桥梁.它是扩展网络和通信的手段物理网卡和虚拟网卡在拓扑图上处于...

2018-03-05 15:06:23 266

原创 CAS--单点登录解决方案简单介绍

因为企业多用SOA架构,所以目前企业比较流行的企业业务整合方案显得尤为重要.下面对其解决方案之一------单点登录做一个探究.A.单点登录(Single Sign On),简称SSO.定义:在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统. 同上述提到的问题一样,我们目前的系统大多存在于诸多的子系统中,而这些子系统分别部署在不同的服务器中,那么使用传统方式的Session是无...

2018-02-25 21:58:59 639

原创 Spring核心容器的详细解析以及IOC和DI和过程全解

1.spring的简介spring是一个一站式的解决框架,旨在解决企业开发中各个层级之间的问题.所谓一站式的解决方案:就是spring可以支持我们各个层级包括数据展示层,业务层和持久层都有对应的解决方案.Spring的出现是为了取代 EJB(Enterprise JavaBean)开发模式的臃肿,低效,脱离现实2.spring优点方便解耦,简化开发AOP编程的支持申明式

2018-02-03 22:27:24 1938

原创 Dubbox简介及开发简要流程总结

1.SOA架构    SOA是service-oriented Architecture 面向服务的架构样式    主要原因:在分布式的环境中,软件开发将各种实现的功能都会以服务的形式提供给用户或者其他服务.    企业级应用的开发采用面向服务的体系架构来达到灵活多变,可复用性高的需求从服务,基于服务开发和服务的结果来看,面向服务是一种思考方式.SOA更

2018-01-31 21:11:41 2144

原创 java产生n位数字验证码技巧

java代码实现产生n位数验证码..采用随机数的方法本位演示产生6位数代码(两种方法)第一种:通过math的方法来实现(有一定的缺陷性)可以通过判断来补全.String code = (long)(Math.random()*1000000)+"";第二种通过StringBuffer来实现String s = "0123456789";Random random

2018-01-28 21:50:46 357

原创 Angular.JS的常用知识总结

1.关于angularJS简介AngularJs是一款被由Google收购的优秀的前端框架,核心特性:MVC,模块化,自动化双向数据绑定,语义化标签,依赖注入AngularJS是一个javaScript框架,以JavaScript编写的库.可以通过标签添加到HTML标签AngularJs通过指令扩展了HTML,且通过表达式绑定数据到HTML

2018-01-28 21:35:20 425

OozieWeb界面需要的组件

OozieWeb的js组件,有需下载,有需要的拿去,网上找的好烦

2019-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除