自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Spark累加器与广播变量

Spark 累加器与广播变量一、简介二、累加器        2.1 理解闭包        2.2 使用累加器三、广播变量一、简介在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable):累加器:用来对信息进行聚合,主要用于累计计数等场景;广播变量

2020-09-13 18:51:01 473

原创 Spark部署模式与作业提交

Spark部署模式与作业提交一、作业提交二、Local模式三、Standalone模式三、Spark on Yarn模式一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业,其格式如下:./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Ur

2020-09-13 18:48:40 247

原创 SparkSQL外部数据源

Spark SQL 外部数据源一、简介        1.1 多数据源支持        1.2 读数据格式        1.3 写数据格式二、CSV        2.1 读

2020-09-13 18:44:12 254

原创 SparkSQL联结操作

Spark SQL JOIN一、 数据准备二、连接类型        2.1 INNER JOIN        2.2 FULL OUTER JOIN         2.3 LEFT OUTER JOIN    &

2020-09-06 14:27:42 360

原创 SparkSQL常用聚合函数

聚合函数Aggregations一、简单聚合        1.1 数据准备        1.2 count        1.3 countDistinct        1.

2020-09-06 14:23:33 930

原创 SparkSQL_Dataset和DataFrame简介

DataFrame和Dataset简介一、Spark SQL简介二、DataFrame & DataSet         2.1 DataFrame         2.2 DataFrame 对比 RDDs        2.3 DataSet

2020-09-06 11:53:32 265

原创 Spark_Transformation和Action算子

Transformation 和 Action 常用算子一、Transformation        1.1 map        1.2 filter        1.3 flatMap     &nbs

2020-09-06 11:48:35 396

原创 Spark_Structured_API的基本使用

Structured API基本使用一、创建DataFrame和Dataset二、Columns列操作三、使用Structured API进行基本查询四、使用Spark SQL进行基本查询一、创建DataFrame和Dataset1.1 创建DataFrameSpark 中所有功能的入口点是 SparkSession,可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如下:va

2020-09-06 11:46:15 387

原创 Spark_Streaming整合Kafka

Spark Streaming 整合 Kafka一、版本说明二、项目依赖三、整合Kafka        3.1 ConsumerRecord        3.2 生产者属性        3.3 位置策略    

2020-09-06 11:44:29 714

原创 Spark_Streaming整合Flume

Spark Streaming 整合 Flume一、简介二、推送式方法        2.1 配置日志收集Flume        2.2 项目依赖        2.3 Spark Streaming接收日志数据   &nbs

2020-09-06 11:42:18 182

原创 Spark_Streaming与流处理

Spark Streaming与流处理一、流处理        1.1 静态数据处理        1.2 流处理二、Spark Streaming        2.1 简介      &nbsp

2020-09-06 11:37:10 169

原创 Spark_Streaming基本操作

Spark Streaming 基本操作一、案例引入        3.1 StreamingContext        3.2 数据源        3.3 服务的启动与停止二、Transformation    

2020-09-06 11:32:17 258

原创 Spark_RDD

弹性式数据集RDDs一、RDD简介二、创建RDD        2.1 由现有集合创建        2.2 引用外部存储系统中的数据集        2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD&nbs

2020-09-06 11:25:34 142

原创 sqoop常见错误

常见错误:错误一:ERROR tool.ImportTool: Import failed: java.io.IOException: Generating splits for a textual index column allowed only in case of “-Dorg.apache.sqoop.splitter.allow_text_splitter=true” property passed as a parametersqoop import \--connect jdbc:m

2020-08-15 14:31:22 1779

原创 SQL、Hive场景题及答案

SQL、Hive场景题及答案点赞收藏呦!默认mysql老版本没有支持,在最新的8.0版本中支持, Oracle和Hive中都支持窗口函数,下列题目皆在Hive中实现第一题:了解哪些窗口函数,都是什么功能?找一个在某个业务中的应用? 手写窗口函数及功能意义,同时随便写一个带窗口函数的sql,并说明其sql的含义。窗口函数:通常格式为 可用函数+over()函数-- 查询所有明细select * from t_order;# 查询总量select count(*) from t_order

2020-08-15 14:18:42 2204

原创 Hive分桶的概念--------入门到入土(十)

Hive分桶的概念10.1 分桶的概述10.1.1 为什么要分桶- 数据分区可能导致有些分区数据过多,有些分区数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。- 分区和分桶其实都是对数据更细粒度的管理。当单个分区或者表中的数据越来越大,分区不能细粒度的划分数据时,我们就采用分桶技术将数据更细粒度的划分和管理- [CLUSTERED BY (col_name, col_name, ...)10.1.2 分桶的原理与MapReduce中的HashPartitioner的原理一模

2020-07-29 18:52:10 279

原创 Hive分区表的相关内容------入门到入土(九)

Hive分区表的相关内容9.1 分区简介9.1.1 为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而有时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询效率。9.1.2 如何分区根据业务需求

2020-07-29 18:49:56 230

原创 Hive函数----------入门到入土(八)

Hive函数在Hive中,函数主要分两大类型,一种是内置函数,一种是用户自定义函数。8.1 Hive内置函数8.1.1 函数查看show functions;desc function functionName;8.1.2 日期函数1)当前系统时间函数:current_date()、current_timestamp()、unix_timestamp()-- 函数1:current_date(); 当前系统日期 格式:"yyyy-MM-dd"-- 函数2:current_time

2020-07-29 18:48:29 441

原创 Hive数据类型的讲解----入门到入土(七)

第七章 Hive数据类型的讲解在hive中,数据类型分为基础数据类型和复杂数据类型两大类型7.1 数据类型分类类型描述字面量示例基本类型BOOLEANtrue/falseTRUETINYINT1字节的有符号整数 -128~1271YSMALLINT2个字节的有符号整数,-32768~327671SINT4个字节的带符号整数1BIGINT8字节带符号整数1LFLOAT4字节单精度浮点数1.0DOUBLE8

2020-07-29 17:56:22 319

原创 Hive基本查询语法---入门到入土(六)

第六章 Hive基本查询语法6.1 基本使用规则6.1.1 基本查询语句组成select ..from .. join [tableName] on .. where .. group by .. having .. order by .. sort by .. limit ..union | union all ...6.1.2 执行顺序第一步: FROM <left_table>第二步: ON <join_condition>第三步: <j

2020-07-29 17:55:33 737

原创 Hive Shell技巧---入门到入土(五)

第五章 Hive Shell技巧5.1 查看所有hive参数# 在hive命令行直接输入set 即可hive> set5.2 只执行一次Hive命令通过shell的参数 -e 可以执行一次就运行完的命令[root@hadoop01 hive]# hive -e "select * from cat"小技巧2:可以通过外部命令快速查询某个变量值:hive -S -e “set” |grep cli.print-S 是静默模式,会省略到多余的输出5.3 单独执行一个sq

2020-07-29 17:52:58 157

原创 Hive表类型--入门到入土(四)

第四章 Hive表类型4.1 表分类在Hive中,表类型主要分为两种,第一种:内部表- 也叫管理表- 表目录会创建在集群上的{hive.metastore.warehouse.dir}下的相应的库对应的目录中。- 默认创建的表就是内部表第二种:外部表- 外部表需要使用关键字"external",- 外部表会根据创建表时LOCATION指定的路径来创建目录,- 如果没有指定LOCATION,则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。- 建表语法:必须指定关键字exte

2020-07-29 17:51:48 153

原创 Hive基本操作-库、表---入门到入土(三)

Hive基本操作-库、表3.1 规则语法大小写规则:1. hive的数据库名、表名都不区分大小写2. 建议关键字大写命名规则:1. 名字不能使用数字开头2. 不能使用关键字3. 尽量不使用特殊符号3.2 库操作语法3.2.1 创建数据库创建数据库的本质就是在hive的参数${hive.metastore.warehouse.dir}对应的目录下,创建一个新的目录,此目录的名称为: 库名.db。注意:在创建库或者表时除了创建目录外,还会在mysql中(元数据库),添加元数据(描述信

2020-07-29 17:36:48 373

原创 Hive远程模式安装部署

Hive远程模式安装部署简介将hive中的相关进程比如hiveserver2或者metastore这样的进程单独开启,使用客户端工具或者命令行进行远程连接这样的服务,即远程模式。客户端可以在任何机器上,只要连接到这个server,就可以进行操作。客户端可以不需要密码。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CklQWtpO-1596014766859)(E:/Study/Hive/文档/Hive.assets/20191021015748.jpg)]服务端的配置

2020-07-29 17:26:50 788

原创 Hive本地模式安装部署

Hive本地模式安装部署使用mysql替换derby进行元数据的存储,hive的相关进程都是在同一台机器上,即本地模式。mysql因为是独立的进程,所以mysql可以和hive在同一机器上,也可以在其他机器上。说明:通常使用关系型数据库来进行元数据存储(mysql、oracle等执行带jdbc驱动的数据库)优点:支持多session缺点:需要配置、还需要安装mysql等关系型数据库2.2.1 配置安装mysql安装包准备#查看mysql是否安装,如果安装了,卸载mysql

2020-07-29 17:22:27 1105

原创 Hive的内嵌模式

Hive内嵌模式的安装部署Hive常用的安装分三种(注意:Hive会自动监测Hadoop的环境变量,如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft内嵌模式:使用hive自带默认元数据库derby来进行存储,通常用于测试优点:使用简单,不用进行配置缺点:只支持单session。安装步骤:1)解压hive并配置环境变量[root@hadoop01 local]# tar -zxvf apache-h

2020-07-29 17:15:24 1026

原创 Java入门到入土!(三)

第五章、流程控制5.1.流程控制的简介5.1.1. 程序的执行结构在Java中,程序的执行结构分为三种顺序结构:代码从上往下,逐行依次执行,是程序执行的默认结构。分支结构:程序在某一个节点遇到了多种向下执行的可能性,根据条件,选择一个分支继续执行。循环结构:某一段代码需要被重复执行多次。5.1.2. 流程控制的介绍流程控制,就是通过指定的语句,修改程序的执行结构。 按照修改的不同的执行结构,流程控制语句可以分为:分支流程控制语句:将程序,由顺序结构,修改为分支结构

2020-07-08 17:52:15 146

原创 Thread(循环顺序执行多个线程)

第一题:问题描述使用多线程在控制台上打印出如下效果,每次只能打印一个数字。线程A: 1 2 3 4 5线程B: 6 7 8 9 10线程C: 11 12 13 14 15线程A: 16 17 18 19 20线程B: 21 22 ...............线程C: 71 72 73 74 75/** * 线程A: 1 2 3 4 5 * 线程B: 6 7 8 9 10 * 线程C: 11 12 13 14 15 * 线程A: 16 17 18 19 20 * 线程B: 21

2020-07-07 22:41:53 1226

原创 JAVA从入门到入土(二)!

JAVA从入门到入土(二)文章目录JAVA从入门到入土(二)第二章、进制2.1进制的简介2.2.进制的分类2.3. 进制的表示2.4. 进制的转换2.4.1. 十进制转其他进制2.4.2. 其他进制转十进制2.4.3. 二进制与八进制, 十六进制的相互转换2.5.原反补2.5.1. 数据的转换2.5.2. 负数的表示2.5.3. 补码的引入2.5.3.1. 符号位参与运算的问题2.5.3.2. 原反补2.5.3.3. 补码运算第三章、Java语法基础3.1. 数据类型3.1.1. 数据类型概念3.1.2.

2020-07-04 20:46:56 293

原创 JAVA从入门到入土(一)!

JAVA从入门到入土!(自己学习中整理的,大佬绕行)1.1.Java发展历程Java诞生于1995年,是由Sun公司推出的一种面向对象的编程语言。不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言 的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程。1996年,发布JDK1.01999年,发布J2SE、J2EE、J2ME2005年,更名为Java SE、Jav

2020-07-02 13:35:36 1311

原创 拷贝一个目录到另一个目录

**拷贝一个目录到另一个目录** //重载方法 public static void copyDir(String srcDir,String desDir){ copyDir(new File(srcDir),new File(desDir)); } /** * 拷贝文件夹 * @param src 原目录 * @param des 目标目录 */ public static void copyDir(File

2020-07-01 08:23:34 562

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除