自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

渐渐的忘记,赶不上明天(读研ing,2024年毕业)

流浪猫摇晃秋千,夕阳照了一遍它眯着眼。

  • 博客(366)
  • 收藏
  • 关注

原创 【Windows】关闭自动更新

找到:任务计划程序 -> 任务计划程序库 -> Microsoft -> Windows -> WindowsUpdate。右键单击Scheduled Start任务,然后点击“禁用”即可。右键单击“此电脑”,点击“管理”。

2024-04-02 14:28:36 175

原创 【Hive】with 语法 vs cache table 语法

3、当数据需要构造all维度时,不用在with / cache语法内使用 lateral view 语法将数据裂开,这样数据量太大了,然后可能在后续使用过程中出现维度问题。应该在使用with / cache table中的数据时再裂开。1、最常见的,多个重复sql时,可使用with / cache语法。cache是会将数据缓存在内存中,按需求考虑。2、cache一般用来缓存结果数据,小量数据;如果要将数据缓存,需要使用cache table语法。需要注意,with语法只相当于一个视图,

2024-03-22 13:03:51 427

原创 Windows定时休息提醒

打开计划任务管理程序。可以通过 “开始->windows管理工具->任务计划程序” 或者 “控制面板->系统和安全->管理工具->计划任务” 找到。保存完毕后,找到刚才保存的脚本,试着双击执行一下。如果能弹出提醒框,说明脚本没有问题。在左边可以看到“计划任务程序库”,可以右击新建一个自己的文件夹,方便管理。编码一定要选择“ANSI”,不然一会儿执行会报错。在电脑任意地方创建一个文件,我说在。右击自己的文件夹,点击“创建任务”最终确定后可查看是不是想要的。链接上前面编写的提醒界面。

2024-03-20 11:49:27 337

原创 Window常见命令

WinctrldWinctrl左右方向键WinctrlF4Alttab。

2024-03-14 15:57:57 340

原创 【Hive】HQL Map 『CRUD | 相关函数』

1. Map 增删改查1.1 声明 Map 数据类型1.2 增1.3 删1.4 改1.5 查2. Map 相关函数2.1 单个Map3. Map 与 String3.1 Map 转 string3.2 string 转 Map

2023-08-22 16:09:49 1059

原创 【Hive】group by 分组聚合后使用窗口函数

1. group by 分组聚合后使用排序窗口函数1.1 两种思路 与 简单例子1.2 新思路的解释2. group by 分组聚合后使用聚合窗口函数3. group by 分组聚合后使用分析窗口函数

2023-07-20 13:15:08 1099 1

原创 【Hive】HQL Array 『CRUD | 相关函数』

例如,array_intersect(array(1,2,3), array(2,3,4))将返回数组(2,3)。例如,array_except(array(1,2,3), array(2,4))将返回数组(1,3)。例如,6. array_join(array(1,2,3), ‘,’)将返回字符串"1,2,3"。例如,array_remove(array(1,2,3), 2)将返回数组(1,3)。例如,array_position(array(1,2,3), 2)将返回2。:返回数组中的最大值。

2023-06-12 19:21:15 2238 4

原创 【Hive】distinct对行与列的去重

在 函数 里面,则是对列去重。

2023-06-02 15:02:54 120

原创 【Hive】SQL中函数执行顺序 『 一般函数 | 窗口函数』

类似于函数的调用,外层函数会被先调用,但是后执行。也就是说,越内层的函数,越先执行。所以,当函数内有对列进行过滤时,会先过滤,再执行函数。函数的功能:对数据进行某操作。这先得有数据才能进行操作。

2023-06-02 14:39:30 723

原创 【Scala】下划线的使用总结

1. 用于导包下的所有内容2. 访问元组3. 为类中的var属性赋默认值4. 匿名函数作为实参传递时用下划线简化5. 用于模式匹配等价于else

2023-06-01 19:02:56 73

原创 【Scala】=>的含义

是函数的标志,看到这个符号,就要想到函数。

2023-06-01 17:17:24 236

原创 【Scala---02】Scala 类与对象 『 类 | 属性 | 访问权限 | 方法 | 继承 | 伴生对象&伴生类』

1. 定义类2. 属性3. 访问权限4. 方法4.1 方法 vs 函数4.2 方法重写4.3 方法重载4.4 构造方法(1) 构造器定义(2) 构造器的参数列表(3) 构造器私有化5. 继承6. 伴生对象 & 伴生类6.1 伴生对象的由来6.2 伴生对象 & 伴生类7. 后续

2023-05-19 17:34:31 663 1

原创 【Scala---01】Scala 基础 『 变量和数据类型 | 控制语句 | 函数式编程』

1. 变量和数据类型1.1 变量和常量1.2 字符串1.3 数据类型1.4 伴生对象与伴生类1.5 代码块1.6 Unit、null、Nothing1.7 强制转换1.8 == 与 equals2. 控制语句2.1 分支语句2.2 循环语句(1)for循环(2)while/do-while循环(3) 循环中断3. 函数式编程3.1 方法 vs 函数3.2 方法(1) 方法的定义(2) 方法声明(3) 方法参数(4) 方法至简原则3.3 函数(1) 函数的声明(

2023-05-19 10:29:25 593

原创 Git 『流程 | 基本命令 | 分支 | 推送与拉取』

1. Git简介2. 下载并安装Git3. 跟踪4. Git流程5. 基本指令5.1 查看仓库的状态5.2 查看所有版本5.3 查看不同版本之间有哪些不同5.4 版本回退6. 分支6.1 分支相关命令6.2 开发中分支使用原则7. 远程仓库 本地仓库(1) 设置密钥(2) 远程仓库 --> 本地仓库场景一:拉取整个项目场景二:只将远程仓库更新的分支抓取到本地(3) 本地仓库--->远程仓库

2023-04-04 11:36:15 1192

原创 【Hive】space、split、posexplode函数:生成连续数、连续日期等等

1. space函数与split函数结合,得到空字符串数组;2. 如何产生1-10的连续的数字?3. 如何产生开始日期到结束日期的连续的日期?

2023-03-23 21:30:18 1328

原创 【Java】 泛型擦除

1. 泛型擦除的介绍1.1 泛型擦除的原因1.2 泛型擦除规则1.3 泛型擦除规则的验证2. 通过反射获取被擦除的泛型信息3. 使用匿名内部类解决泛型擦除导致的问题4. 泛型擦除在Flink中的坑4.1 算子实参有时用Lambda表达式代替匿名内部类会报错4.2 new OutputTag(){}

2023-01-30 00:59:24 5472 1

原创 【Flink】Sink 下沉算子 『print() | addSource() 』

1. Flink 直接连接的数据源* 将数据输出到控制台2. Flink使用连接器连接的数据源2.1 将数据输出到Kafka (用于无界流数据的实际场景)2.2 将数据输出到Redis (用于无界流数据的实际场景)2.3 将数据输出到 Elasticsearch (用到了再写)2.4 将数据输出到 MySQL(JDBC) (用到了再写)2.5 将数据输出到 文件系统 (用到了再写)2.6 自定义 Sink 输出 (用到了再写)

2023-01-12 08:54:43 315

原创 【Flink】Transformation 转换算子 『流分区 | 基本转换算子 | 聚合算子 | 合流算子 | 富函数类 | 自定义转换算子』

1. 流分区 (非算子)1.1 keyBy() 分区1.2 shuffle() 分区1.3 rebalance() 与 rescale() 分区1.4 broadcast() 分区1.5 global() 分区1.6 自定义分区2. 基本转换算子2.1 map (一对一)2.2 filter (一对一)2.3 flatMap (一对多)3. 聚合算子3.1 sum() 算子3.2 min() 算子 与 minBy() 算子3.3 max() 算子 与 maxBy() 算子3.4

2023-01-11 19:15:18 227

原创 【Flink】Source 源算子 『fromCollection() | readTextFile() | socketTextStream | addSource() | Flink流支持的数据』

1. Flink 直接连接的数据源1.1 从 集合 中读取数据(用于有界流数据的测试场景)1.2. 从 文件 读取数据(用于有界流数据的实际场景)1.3 从 Socket 读取数据(用于无界流数据的测试场景)2. Flink使用连接器连接的数据源4.1 从 Kafka 读取数据(用于无界流数据的实际场景)4.2 自定义连接器3. Flink流支持的数据类型

2023-01-07 10:01:54 197

原创 【Flink---04】Flink运行时架构 『 系统架构 | 作业提交流程 | 数据流图 vs 作业图 vs 执行图 vs 物理图 | 并行度 | 任务槽| 算子任务 | 算子子任务』

1. 系统架构1.1 概述1.2 JobManager1.3 TaskManager2. 作业提交流程2.1 抽象流程2.2 yarn集群下流程(动态分配TaskManager⭐)2.2.1 会话模式2.2.2 单作业模式2.2.3 应用模式2.3 Standalone集群下流程(预先固定TaskManager个数⭐)3. 一些重要概念3.1 算子3.2 并行度(Parallelism)(1) 什么是并行度?(2) 怎么设置算子的并行度?(3) 关于并行度的优化:合并算子链

2023-01-05 18:17:47 611

原创 【Flink---03】Flink生产环境:搭建集群、设置系统结构、设置系统的资源框架

第一步:搭建集群1.1 单点启动(用于测试)1.2 集群启动(用于实际环境)第二步:设置系统结构第三步:设置系统的资源框架

2023-01-03 11:10:49 269

原创 【JavaSE---16】函数式接口 与 Lambda表达式

1. 函数式接口1.1 定义1.2 Java中四大最基本的函数式接口2. Lambda表达式2.1 语法2.2 Lambda表达式 vs 函数式接口的匿名内部类2.3 常用场景2.4 Lambda表达式做了什么?2.5 在Flink中关于lambda表达式的一个注意点

2023-01-03 10:49:35 57

原创 【Flink---02】Flink开发环境:IDEA

第一步:创建项目第二步:编辑pom.xml文件第三步:配置日志第四步:编写代码(1) 数据准备(2) 方式一:批处理(3) 方式二:流处理* 以有界流的方式* 以无界流的方式

2022-12-26 21:39:48 2151

原创 【Flink---01】Flink概述

1. Flink是什么?2 Flink在大数据架构中的位置3. Flink的特性4. Flink的API5. Flink的应用6. Flink vs Spark

2022-12-26 21:37:57 119

原创 【机器学习---03】感知机模型

1. 感知机模型是什么?有什么作用?2. 三要素2.1 模型2.2 策略2.3 算法

2022-12-18 21:14:33 908

原创 【机器学习---02】机器学习相关名词解释

1. 损失函数、期望风险、经验风险2. 经验风险最小化和结构风险最小化2.1 结构风险(正则化)2.2 两者的定义3. 训练误差 与 测试误差4. 过拟合 与 欠拟合4.1 过拟合及解决方法4.2 交叉验证4.3 欠拟合5. 泛化误差 与 泛化误差上界5.1 泛化误差5.2 泛化误差上界6. 生成模型 与 判别模型7. 最大似然估计7.1 极大似然估计7.2 最大似然估计 与 经验风险 关系

2022-12-18 21:13:34 1422

原创 【机器学习---01】机器学习

1. 什么是机器学习?2. 机器学习分类2.1 基本分类2.2 按模型分类2.3 其他分类(不重要)3. 机器学习三要素4. 监督学习的应用(分类、标注、回归问题)

2022-12-18 21:11:57 491

原创 【Hive---23】实际案例之分组TopN问题 『row_number() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 20:53:27 55

原创 【Hive---22】实际案例之累计金额 『 sum() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 20:28:15 164

原创 【Hive---21】实际案例之查询连续登陆 『 date_add() | lead() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 16:32:12 55

原创 【Hive---20】实际案例之行列转换 『 多行转多列 | 多行转单列 | 多列转多行 | 单列转多行』

1. 多行转多列1.1 数据特征1.2 代码实现(max(case...end) | max(if()))1.3 变形例题2. 多行转单列2.1 数据特征2.2 代码实现(cast()、collect_list()、concat_ws())3. 多列转多行3.1 数据特征3.2 代码实现(union all)4. 单列转多行3.1 数据特征3.2 代码实现(explode()、侧视图)

2022-12-18 11:19:00 354

原创 【Hive---19】性能优化之job优化『 数据库操作 | 表操作 | 视图 vs 物化视图』

job优化

2022-12-18 10:49:02 23

原创 【Hive---18】性能优化之表数据优化『 数据库操作 | 表操作 | 视图 vs 物化视图』

1. 文件格式1.1 textfile1.2 orc2. 数据压缩3. 存储优化

2022-12-18 10:47:27 28

原创 【Hive---17】性能优化之表设计优化 『 left jion + union all』

1. 采用分区表2. 采用分桶表3. 采用物化视图代替索引

2022-12-18 10:47:01 101

原创 【Hive---16】拉链表 『 left jion + union all』

1. 应用场景2. 概述3. 实现过程4. 例子

2022-12-18 10:46:21 255

原创 【Hive---15】json相关函数 『 get_json_object() | json_tuple() | JsonSerde』

1. 概述2. get_json_object() (不推荐使用)2.1 概述2.2 例子2.3 一个注意事项3. json_tuple() (推荐使用)3.1 概述3.2 例子3.3 一个注意点4. 使用内置解析器JsonSerde

2022-12-18 10:45:51 1141

原创 【Hive---14】URL解析函数 『 parse_url() | parse_url_tuple()』

1. 概述2. parse_url() (不推荐使用)2.1 概述2.2 例子2.3 一个注意点3. parse_url_tuple() (推荐使用)3.1 概述3.2 例子3.3 一个注意点

2022-12-18 10:44:56 388

原创 【Hive---13】抽样函数『 』

抽样函数

2022-12-18 10:43:49 260

原创 【Hive---12】窗口函数『 窗口函数与group by 区别 | 窗口聚合函数 | 窗口排名函数 | 窗口分析函数』

1. 概述1.1 窗口函数的partition by与group by 的分组有什么区别?1.2 窗口函数的order by + order by 的排序有区别吗?2. 语法2.1 哪些函数可以开窗变为窗口函数?2.2 语法---- 关于order by 的一个坑关于窗口函数是否可以嵌套3. 窗口聚合函数3.1 sum()窗口函数的一个注意点3.2 例子4. 窗口排名函数4.1 求TopN4.2 求几分之几5 窗口分析函数6. 关于窗口函数的一些思考

2022-12-15 11:57:57 1439 7

原创 关于as关键字 『 as 关键字作用 | 作用范围 | 细节』

as关键字

2022-12-15 11:35:34 820

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除