1 Alienware^

尚未进行身份认证

我要认证

喜欢专研Java,Scala,Python,Web,Spring,SprinMVC,Mybatis,SpringData,SpringBoot,SpringCloud,Netty,各种分布式组件,数据库,以及大数据框架系列知识。希望通过不断的学习,记录自己的点点滴滴,能帮助更多的人。。

等级
TA的排名 9w+

Hive学习笔记(十一)—— Hive 实战之谷粒影音

文章目录10.1 需求描述10.2 项目10.2.1 数据结构10.2.2 ETL 原始数据10.3 准备工作10.3.1 创建表10.3.2 导入 ETL 后的数据10.3.3 向 ORC 表插入数据10.4 业务分析10.4.1 统计视频观看数 Top1010.4.2 统计视频类别热度 Top1010.4.3 统计出视频观看数最高的 20 个视频的所属类别以及类别包含Top20 视频的个数10.4.4 统计视频观看数 Top50 所关联视频的所属类别 Rank10.4.5 统计每个类别中的视频热度 To

2020-10-25 11:37:47

Hive学习笔记(十)—— 企业级调优

文章目录9.1 Fetch 抓取9.2 本地模式9.3 表的优化9.3.1 小表、大表 Join9.3.2 大表 Join 大表9.3.3 MapJoin9.3.4 Group By9.3.5 Count(Distinct) 去重统计9.3.6 笛卡尔积9.3.7 行列过滤9.3.8 动态分区调整9.3.9 分桶9.3.10 分区9.4 MR 优化9.4.1 合理设置 Map 数9.4.2 小文件进行合并9.4.3 复杂文件增加 Map 数9.4.4 合理设置 Reduce 数 1.调整 reduce 个数

2020-10-24 19:00:06

Hive学习笔记(九)—— 压缩和存储

文章目录8.1 Hadoop 源码编译支持 Snappy 压缩8.1.1 资源准备8.1.2 jar 包安装8.1.3 编译源码8.2 Hadoop 压缩配置8.2.1 MR 支持的压缩编码8.2.2 压缩参数配置8.3 开启 Map 输出阶段压缩8.4 开启 Reduce 输出阶段压缩8.5 文件存储格式8.5.1 列式存储和行式存储8.5.2 TextFile 格式8.5.3 Orc 格式8.5.4 Parquet 格式8.5.5 主流文件存储格式对比实验8.6 存储和压缩结合8.6.1 修改 Hado

2020-10-23 21:52:19

Hive学习笔记(八)—— 函数

文章目录7.1 系统内置函数7.2 自定义函数7.2.1 自定义 UDF 函数7.2.2 自定义 UDTF 函数7.1 系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过

2020-10-23 15:57:45

Hive学习笔记(七)—— 查询 (高级)

文章目录高级查询部分1. CASE WHEN / IF高级查询部分1. CASE WHEN / IF数据准备namedept_idsex悟空A男大海A男宋宋B男凤姐A女婷姐B女婷婷B女2.需求求出不同部门男女各多少人。结果如下:A 2 1B 1 23.创建本地 emp_sex.txt,添加数据悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女4.创建 hive 表并导

2020-10-23 11:26:12

Hive学习笔记(六)—— 查询(基础)

文章目录查询语句语法:6.1 基本查询(Select…From)6.1.1 全表和特定列查询6.1.2 列别名6.1.3 算术运算符6.1.4 常用函数6.1.5 Limit 语句6.2 Where 语句6.2.1 比较运算符(Between/In/ Is Null)6.2.2 Like 和 RLike6.2.3 逻辑运算符(And/Or/Not)6.3 分组6.3.1 Group By 语句6.3.2 Having 语句6.4 Join 语句6.4.1 等值 Join6.4.2 表的别名6.4.3 内连接

2020-10-22 16:03:35

Hive学习笔记(五)—— DML 数据操作

文章目录5.1 数据导入5.1.1 向表中装载数据(Load)5.1.2 通过查询语句向表中插入数据(Insert)5.1.3 查询语句中创建表并加载数据(As Select)5.1.4 创建表时通过 Location 指定加载数据路径5.1.5 Import 数据到指定 Hive 表中5.2 数据导出5.2.1 Insert 导出5.2.2 Hadoop 命令导出到本地5.2.5 Sqoop 导出5.3 清除表中数据(Truncate)5.1 数据导入5.1.1 向表中装载数据(Load)1.语法

2020-10-22 13:10:42

Hive学习笔记(四)—— DDL 数据定义

文章目录4.1 创建数据库4.1 创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)hive (default)> create database db_hive;FAILED: Execution Error, return code 1 fro

2020-10-22 12:04:54

Hive学习笔记(三)—— Hive 数据类型

文章目录Hive 数据类型3.1 基本数据类型3.2 集合数据类型3.3 类型转化Hive 数据类型3.1 基本数据类型Hive 数据类型Java 数据类型长度例子TINYINTbyte1byte 有符号整数20SMALINTshort2byte 有符号整数20INTint4byte 有符号整数20BIGINTlong8byte 有符号整数20BOOLEANboolean布尔类型,true 或者 falseTRUE FALS

2020-10-22 08:00:59

Hive学习笔记(二)—— Hive的安装

文章目录Hive 安装2.1 Hive 安装地址2.2 Hive 安装部署2.3 将本地文件导入 Hive 案例2.4 MySql 安装2.4.1 安装包准备2.4.2 安装 MySql 服务器2.4.3 安装 MySql 客户端2.4.4 MySql 中 user 表中主机配置2.5 Hive 元数据配置到 MySql2.5.1 驱动拷贝2.5.2 配置 Metastore 到 MySql2.5.3 多窗口启动 Hive 测试2.6 HiveJDBC 访问2.6.1 启动 hiveserver2 服务2.

2020-10-21 18:06:42

Hive学习笔记(一)—— Hive的入门

文章目录Hive 基本概念1.1 什么是 Hive1.2 Hive 的优缺点1.2.1 优点1.2.2 缺点1.3 Hive 架构原理1.4 Hive 和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数据规模Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文

2020-10-21 16:53:25

warning: MySQL-server-5.5.48-1.linux2.6.i386.rpm: Header V3 DSA/SHA1 Signatu

CentOS rpm安装Mysql时出现这样的错误:warning: MySQL-server-5.5.48-1.linux2.6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYerror: Failed dependencies:/usr/bin/perl is needed by MySQL-server-5.5.481.linux2.6.x86_64原因:这是由于yum安装了旧版本的GPG keys造成的解决办

2020-10-20 17:05:42

MySQL学习笔记(十八)—— MySQL的流程控制结构

文章目录流程控制结构一、分支结构1.if函数2.case结构3.if结构二、循环结构1.while2.loop3.repeat流程控制结构经典案例讲解流程控制结构/*顺序、分支、循环*/一、分支结构1.if函数/*语法:if(条件,值1,值2)功能:实现双分支应用在begin end中或外面*/2.case结构/*语法:情况1:类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;...else 语句n;e

2020-10-20 16:30:07

MySQL学习笔记(十七)—— MySQL的存储过程和函数

文章目录存储过程和函数存储过程一、创建语法1,注意:二、调用语法三、删除存储过程四、查看存储过程的信息存储过程案例讲解一、创建存储过程实现传入用户名和密码,插入到admin表中二、创建存储过程实现传入女神编号,返回女神名称和女神电话三、创建存储存储过程或函数实现传入两个女神生日,返回大小四、创建存储过程或函数实现传入一个日期,格式化成xx年xx月xx日并返回五、创建存储过程或函数实现传入女神名称,返回:女神 and 男神 格式的字符串六、创建存储过程或函数,根据传入的条目数和起始索引,查询beauty表的

2020-10-19 16:32:48

MySQL学习笔记(十六)—— MySQL的变量

文章目录变量一、系统变量1》全局变量2》会话变量二、自定义变量1》用户变量2》局部变量用户变量和局部变量的对比变量/*系统变量: 全局变量 会话变量自定义变量: 用户变量 局部变量*/一、系统变量/*说明:变量由系统定义,不是用户定义,属于服务器层面注意:全局变量需要添加global关键字,会话变量需要添加session关键字,如果不写,默认会话级别使用步骤:1、查看所有系统变量show global|【session】variables;2、查看满足条件的部分系统变

2020-10-19 14:51:08

MySQL学习笔记(十五)—— MySQL的视图

文章目录视图一、创建视图1.查询姓名中包含a字符的员工名、部门名和工种信息2.查询各部门的平均工资级别3.查询平均工资最低的部门信息4.查询平均工资最低的部门名和工资视图的好处二、视图的修改方式一:方式二:三、删除视图四、查看视图五、视图的更新1.插入2.修改3.删除具备以下特点的视图不允许更新视图/*含义:虚拟表,和普通表一样使用mysql5.1版本出现的新特性,是通过表动态生成的数据比如:舞蹈班和普通班级的对比 创建语法的关键字 是否实际占用物理空间 使用视图 create view

2020-10-17 18:31:29

MySQL学习笔记(十四)—— MySQL的事务

文章目录TCL1.演示事务的使用步骤2.演示事务对于delete和truncate的处理的区别3.演示savepoint 的使用TCL/*Transaction Control Language 事务控制语言事务:一个或一组sql语句组成一个执行单元,这个执行单元要么全部执行,要么全部不执行。案例:转账张三丰 1000郭襄 1000update 表 set 张三丰的余额=500 where name='张三丰'意外update 表 set 郭襄的余额=1500 where n

2020-10-17 16:55:46

MySQL学习笔记(十三)—— MySQL的标示列

文章目录标识列一、创建表时设置标识列标识列/*又称为自增长列含义:可以不用手动的插入值,系统提供默认的序列值特点:1、标识列必须和主键搭配吗?不一定,但要求是一个key2、一个表可以有几个标识列?至多一个!3、标识列的类型只能是数值型4、标识列可以通过 SET auto_increment_increment=3;设置步长可以通过 手动插入值,设置起始值*/一、创建表时设置标识列DROP TABLE IF EXISTS tab_identity;CREATE TABLE

2020-10-17 16:27:15

MySQL学习笔记(十二)—— MySQL的常见约束

文章目录常见约束一、创建表时添加约束1.添加列级约束2.添加表级约束3.通用的写法:★二、修改表时添加约束1.添加非空约束2.添加默认约束3.添加主键4.添加唯一5.添加外键三、修改表时删除约束1.删除非空约束2.删除默认约束3.删除主键4.删除唯一5.删除外键常见约束/*含义:一种限制,用于限制表中的数据,为了保证表中的数据的准确和可靠性分类:六大约束 NOT NULL:非空,用于保证该字段的值不能为空 比如姓名、学号等 DEFAULT:默认,用于保证该字段有默认值 比如性别 P

2020-10-17 10:13:58

MySQL学习笔记(十一)—— MySQL的数据类型

文章目录常见的数据类型一、整型1.如何设置无符号和有符号二、小数测试M和D原则:三、字符型四、日期型常见的数据类型/*数值型: 整型 小数: 定点数 浮点数字符型: 较短的文本:char、varchar 较长的文本:text、blob(较长的二进制数据)日期型:*/一、整型/*分类:tinyint、smallint、mediumint、int/integer、bigint1 2 3 4 8特点:① 如果不设置无符号还是有符号,默认是有符号,如果想设置无符

2020-10-16 17:17:01

查看更多

勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。