莹火虫的另一半-CSDN博客

原创 01 Redis介绍、数据类型

redis官网地址：https://redis.io/中文网站http://www.redis.cn/数据类型1.key-value型数据库 key：必须是String value可以是以下四种： 1) 字符串类型 string-------------------------->String2) 哈希类型 hash --------------------------...

2021-01-28 10:36:57 271 1

原创 19 hive 调优

一、fetch 的本地抓取策略核心思想能直接通过表目录获取到文件就不走MR 能不走MR就不走MR查询执行原理 Hive 简单读取表对应的存储目录下的文件（如下图），然后输出到控制台。开启本地 fetch 抓取策略 set hive.fetch.task.conversion = more; 在hive-default.xml.te..

2021-01-24 00:12:56 767 2

Hive索引要想使用以下任何一种索引，都必须打开全局索引开关hive.optimize.index.filterhive索引分为三种1.原始索引（淘汰不使用）2.行组索引，Row Group Index3.Bloom Filter Index注意：后面两种索引只适用于ocr格式的文件一、Hive原始索引一般不会在Hive3.0中已被删除二、Row Group Index行组索引、主要用于数值类型条件查询。（=、<，>），如：int，..

2021-01-24 00:11:07 442

原创 17 hive 的数据存储格式

行存储和列存储行存储的特点：查询满足条件的一整行（所有列）数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。TEXTFILE默认格式，行式存储。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自...

2021-01-24 00:09:59 1243

转载 16 hive数据压缩

一、hive的数据压缩在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽1.1、 MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分 DEFAULT 无 ...

2021-01-24 00:09:28 86

原创 15 hive自定义函数

一、Hive自定义函数Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。根据用户自定义函数类别分为以下三种：1、UDF（User-Defined-Function）一进一出（例如，通过身份证查询出行政区划）2、UDAF（User-Defined Aggregation Function.

2021-01-24 00:09:10 123

原创 14 hive开窗函数

一、窗口函数一row_number rank dense_rank ntile数据准备itcast_t2.txtcookie1,2018-04-10,1 cookie1,2018-04-11,5 cookie1,2018-04-12,7 cookie1,2018-04-13,3 cookie1,2018-04-14,2 cookie1,2018-04-15,4 cookie1,2018-04-16,4 cookie2,2018-04-10,2 cookie2,201...

2021-01-24 00:06:32 107

原创 13 hive的行转列

一、行转列1.1、介绍1、行转列是指多行数据转换为一个列的字段。2、Hive行转列用到的函数：concat(str1,str2,...)--字段或字符串拼接concat_ws(sep, str1,str2)--以分隔符拼接每个字符串collect_set(col)--将某字段的值进行去重汇总，产生array类型字段1.2、案例测试数据emp.txt20 SMITH30 ALLEN30 WA...

2021-01-24 00:05:20 414

原创 12 hive函数

hive内置函数零、判断函数nvl函数SELECT nvl(itcast_school_id, -1) FROM itcast_intention_dwd dwd;如果第一个参数为空，返回第二个参数，否则返回第一个参数。if函数SELECT if(itcast_school_id is null, -1, itcast_school_id) FROM itcast_intention_dwd dwd;如果...

2021-01-24 00:04:33 190

原创 11 hive shell

语法结构 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S] 说明： 1、-i 从文件初始化HQL。 2、-e 从命令行执行指定的HQL 3、-f 执行HQL脚本 4、-v 输出执行的HQL语句到控制台 5、-p <port> connect to Hive Server ...

2021-01-24 00:03:41 101

原创 10 hive查询操作练习

### 数据的准备# 创建一个数据库create database if not exists day13_hive;# 使用这个数据库use day13_hive;# 创建对应的表：学生表和成绩表create external table student (s_id string,s_name string,s_birth string , s_sex string ) row format delimited fields terminated by '\t';create ...

2021-01-24 00:03:24 159

原创 09 hive查询语法

一、select语句1.1 基本语法# 基本语法SELECT [ALL | DISTINCT]select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][HAVING where_condition][ORDER BY col_list][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT B...

2020-12-28 22:10:26 198

原创 08 hive中表数据的加载和导出

一、hive中表数据的加载hive中表数据的加载有三种方式1.1 insert into （了解即可，一般不使用）create table score3 like score;insert into table score3 partition(month ='202007') values ('001','002','100');这种方式，底层会转换成 MR 执行，没执行一次，都会产生一个小文件，在进行数据插入的时候，一般一次性插入N条数据，批量加载过程。一次性...

2020-12-28 22:09:45 217 1

原创 07 hive中分区表、分桶表、表的修改

一、分区表在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。一个分区相当于hdfs中的一级文件件多个分区类似于hdfs中的多级文件夹，如下图：数据源01 01 80 01 02 90 01 03 99 02 01 70 0...

2020-12-28 22:08:30 617

原创 06 hive中建表语法、内部表、外部表

二、数据表2.1 创建数据表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name,...

2020-12-28 22:07:35 257

原创 05 字段类型和操作

一、字段类型1.1 图表分类类型描述字面量示例原始类型 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数-128~127 1Y SMALLINT ..

2020-12-28 22:06:33 133

原创 04 hive中数据库操作

创建数据库create database if not exists myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的默认不需要配置也在/user/hive/warehouse<name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value>指定指定hdfs存储位置create databa...

2020-12-28 22:00:50 59

原创 03 hive的安装

一、安装三种模式hive的安装一共有三种方式:内嵌模式、本地模式、远程模式内嵌模式内嵌模式使用的是内嵌的Derby数据库来存储元数据，也不需要额外起Metastore服务。数据库和Metastore服务都嵌入在主Hive Server进程中。这个是默认的，配置简单，但是一次只能一个客户端连接，适用于用来实验，不适用于生产环境。解压hive安装包 bin/hive 启动即可使用缺点：不同路径启动hive，每一个hive拥有一套自己的元数据，无法共享。本地模式...

2020-12-28 22:00:11 200

原创 02 hive介绍和架构

一、hive介绍和架构1.1 什么是hive hive 是基于 Hadoop的数据仓库的工具，依赖于hadoop hive 本质上来说就是SQL翻译成MR的工具 hive 的数据保存在 HDFS 上 hive 可以使用类 SQL 查询功能 1.2 为什么要使用hive 直接使用 hadoop mr 成本高，操作复杂，优化难度高，hive 提供了类SQL功能，用户只要写SQL就能查询出来相关的数据，成本就低；会SQL的人，比大数据的开发的人.

2020-12-28 21:55:58 93

原创 01 数据仓库介绍、ETL介绍

一、数据仓库的基本概念1.1 简介数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库顾名思义，是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。1.2 数据仓库分层架构按照数据流入流出的...

2020-12-28 21:55:10 383

原创 07 MR案例-分组

一、MR案例-分组1.1、分组需求分区和分组的区别分区：将相同的 k2的数据，发送给同一个 reducer 中，这个操作是在 map端执行分组：将相同的 k2的值进行合并形成一个集合操作，在 reduce 中对同一个分区下的数据进行分组操作。案例：需求：现在需要求出每一个订单中成交金额最大的一笔交易，将结果集存储到2个文件。数据订单id 商品id 成交金额Or...

2020-12-28 21:53:06 152

原创 06 MR执行流程和原理

一、MR执行流程和原理图1.1、执行流程和原理图mapTask的并行机制 mapTask在运行的时候，开启多个map由谁来决定？默认情况：mapTask 的数量和读取 HDFS 中的数据块 block 的数量相等 block块：HDFS 中文件各个小数据块（默认 128m ）（物理划分） FileSplit：在MapReduce 读取每一个块称为 fileSplit（文件切片）（逻辑划分） block 的数量和文件分片的数量一样，大小也是一...

2020-12-20 09:57:05 1460 1

原创 05 MR的序列化和排序

序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。作用:用于实现网络的传输和数据的磁盘存储工作一、需求：a 1a 9b 3a 7b 8b 10a 5要求:第一列按照字典顺序进行排列第一列相同的时候, 第二列按照升序进行排列，输出到文件。二、思路：实现自定义的...

2020-12-20 09:56:39 322 1

原创 04 MR-分区

MapReduce的分区分区：将相同的 k2 的数据发送到同一个分区中物以类聚，人与群分案例将彩票中的彩票结果进行分区操作并输出需求：将partition.csv文本文件中的彩票数据进行分区，小于等于15的分到一个区里，大于15的分到另外一个区里，并最终将数据保存到两个文件中。思路：怎么进行数据的分区？ mapreduce 默认分区的方式是 hashPartiton (key.hashCode() & In...

2020-12-20 09:54:29 149 1

原创 03 MR实例-wordCount

理解需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数实现流程图如下：shuffle阶段暂时不用管数据准备创建一个新的文件 cd/export/server vim wordcount.txt 向其中放入以下内容并保存 hello helloworld world hadoop hadoop hello world hello fl...

2020-12-20 09:49:47 152 1

原创 02 MapReduce的编程规范

三个阶段：数据传输的过程中，都是以 key - value的键值对出现的。map阶段读取数据，将数据转换成 k1 和 v1 自定义 map逻辑，将 k1 和 v1 转换成 k2 和 v2 shuffle阶段分区：将相同的k2的数据发送给同一个reduce程序排序：根据k2的数据，进行排序操作（按照字典顺序）规约combine：是局部聚合，是MapReduce的优化步骤分组：...

2020-12-20 09:42:36 133 1

原创 01 MapReduce的基本概念

什么是Mapreduce ？分布式计算框架，是hadoop的一部分。核心的思想：分而治之什么是分而治之将一个复杂的大的问题，拆分成多个简单的小问题，将每个小的问题进行分别的计算处理操作，得到一个局部的结果之后，再进行合并操作最终得到一个结果。比如说：需求从1 + 2 + 3 + 4 .... + 10000 如何计算呢？单机程序：每个数字的累加计算。分布式，分而治之思想：先找十个...

2020-12-20 09:41:54 112 1

转载 50 Intellij IDEA中启动多个微服务（开启Run Dashboard管理）

转载：https://blog.csdn.net/FORLOVEHUAN/article/details/100121690刚接触了一个微服务架构的项目，了解到了启动方式，记录一下1、找到workspace.xml2.打开workspace.xml，找到其中的配置项 RunDashboard加入如下内容：<option name="configurationTypes"><set><opti...

2020-12-18 10:18:54 265

转载 49 idea通过mysql数据库表生成对应实体类（带注释版）

转载：https://blog.csdn.net/qq_34371461/article/details/80571281

2020-12-18 10:16:50 269

原创 48 远程debug阻塞问题解决

2020-12-18 10:14:22 461

原创 48 idea远程debug

1.配置idea2.执行命令java -jar -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=8888 /tools/jenkins-jar/dce-admin/dce-admin.jar --spring.profiles.active=test...

2020-12-18 10:12:44 46

原创 13 HDFS 高可用原理和集群搭建

一、HDFS高可用1.1、介绍在Hadoop 中，NameNode 所处的位置是非常重要的，整个HDFS文件系统的元数据信息都由NameNode 来管理，NameNode的可用性直接决定了Hadoop 的可用性，一旦NameNode进程不能工作了，就会影响整个集群的正常使用。在典型的HA集群中，两台独立的机器被配置为NameNode。在工作集群中，NameNode机器中的一个处于Active状态，另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作，..

2020-12-18 10:09:30 177 1

原创 12 HDFS的Trash回收机制

一、HDFS的Trash回收机制 Trash回收机制应用场景放置用户手一抖彻底删除数据，当放置到Trash回收站里，还可以再次恢复数据。 Trash回收站原理当用户默认删除数据的时候，并不是直接从物理磁盘删掉，而只是将文件移动到指定的文件夹下，如果一致不恢复数据（根据默认时间7天等相关参数），Trash数据将从磁盘中抹掉。 <property> <name>fs.trash.interval</nam...

2020-12-18 10:08:56 156

原创 11 HDFS 的快照的使用

一、快照1.1、快照介绍和使用场景 hdfs 的快照什么场景上使用：数据的备份放置用户操作不当出现错误的操作试验、测试灾备恢复 hdfs 的快照是什么呢？相当于对HDFS中的某一个文件夹进行拍照，保持当前这个文件夹的一个状态信息（差异化快照）差异化快照：拍完快照，快照文件只是对源文件的映射关系匹配。 hdfs 的快照主要是针对文件夹。 ...

2020-12-18 10:07:40 169

原创 10 Archive档案的使用

一、Archive档案的使用HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会吃掉NameNode节点的大量内存。Hadoop Archives可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件。1.1、如何创建Archive语法Usage: hadoop archive -archiveName name -p <pare...

2020-12-18 10:07:06 891

原创 09 HDFS访问权限控制

一、HDFS访问权限控制HDFS权限模型和Linux系统类似。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户（other）分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录而言，当列出目录内容时需要具有r权限，当新建或删除子文件或子目录时需要有w权限，当访问目录的子节点时需要有x权限。但hdfs的文件权限需要开启之后才生效，否则在HDFS中设置权限将不具有任何意义!..

2020-12-18 10:06:34 464

原创 08 HDFS-javaApi操作

pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven...

2020-12-18 10:06:02 64

原创 03 hadoop集群搭建

集群介绍1.1、什么是hadoop集群HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。HDFS集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNodeYARN集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager那mapreduce是什么呢？它其实是一个分布式运算编程框架，是应用程序开发包，由用户按照...

2020-12-17 09:40:35 129

原创 02 hadoop版本

Hadoop发行版公司Hadoop发行版本分为开源社区版和商业版。社区版是指由Apache软件基金会维护的版本，是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本，比较著名的有cloudera的CDH、mapR、hortonWorks等。免费开源版本Apache:http://hadoop.apache.org/优点：拥有全世界的开源贡献者，代码更新迭代版本比较快，缺点：版本的...

2020-12-17 09:34:03 363

beijing45.zip

jdk-9_汉化版

JdbcTemplate所有jar包，文档

mysql-connector-java-5.1.37-bin

idea 自定义主题（我自己配置的）

空空如也