魅影猎鹰-CSDN博客

原创日常使用过程中易出错的 Hive Sql 合集

结果是错误的，把所有的电器类型都查询出来了，原因就是 and 优先级高于 or，上面的sql语句实际执行的是，先找出 classify = '家具' and price>100 的，然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数据领域有着不可替代的作用，需要我们重点掌握。

2022-09-27 13:03:06 181 1

原创 Hive企业级优化

当然，有时候空值的数据又不一定是异常数据，还是需要保留的，但是空key过多都分配到一个reducer去了，这样执行起来就算不内存溢出也会发生数据倾斜情况，数据倾斜的话对集群资源的利用率来看的话是极其不利的，我们可以通过把空key虚拟成随机数，但要保证不是同一个空key，从而降低数据倾斜概率，虽然这样在对关联键做处理反而会总体增长执行时间，但却减轻了reducer负担。做hive优化的时候，涉及到参数调优时要慎重，比如把内存都申请抢占满了，避免因为你自己的任务调优了但影响到整个集群其他任务的资源分配，

2022-09-14 10:41:26 309

StoneWords的博客

原创日常使用过程中易出错的 Hive Sql 合集

原创 Hive企业级优化

原创 Hive 高频考点讲解

原创 sqoop job 实现自动增量导入

原创 Hive性能调优指南

转载 ROW_NUMBER() OVER函数的基本用法

转载 MySQL的binlog日志详解

转载 hive常用函数之字符串处理函数

转载百亿级全网舆情分析系统存储设计

转载基于TableStore的数据采集分析系统介绍

转载使用Hive处理服务器导入到OSS的日志数据

原创 sql50道题及答案详解

原创教你如何使用强大的adb工具，解决你最头疼的问题！

原创 Auto.js 脚本自动收取自己和好友的蚂蚁森林能量

原创 sql常用语句整理(包括增删改查)，适合小白使用

原创用阿里云轻松搞定日志实时分析及监控大屏

原创关系型和非关系型数据库的区别?

原创大数据项目的一般测试方法

原创常见的几种RuntimeException及其详解

原创 Windows下使用DOS命令进入MySQL数据库

原创 Hadoop Shell命令（基于linux操作系统上传下载文件到hdfs文件系统基本命令学习）

原创 linux中ifconfig后不显示eth0网卡的解决方法

原创 Sqoop-1.4.6安装部署及详细使用介绍

原创 Kettle Spoon入门教程

原创 Spark基础知识点儿汇总

原创 Spark常用算子详解

原创 Intellij IDEA 快捷键整理

原创使用 Flume 收集数据

原创 mysql 远程连接数据库的方法汇总

转载 Flume-og和Flume-ng的变化详解

原创 flume基本知识要点儿须知

原创 Phoenix4.7.0安装

转载 HBase-1.2.1和Phoenix-4.7.0分布式安装指南

原创 HBase行键设计原则

转载 HDFS基本原理及数据存取实战

转载 Linux中命令选项及参数简介

空空如也

空空如也