千年小妖L-CSDN博客

原创 Spark累加器与广播变量

Spark 累加器与广播变量一、简介二、累加器 2.1 理解闭包 2.2 使用累加器三、广播变量一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量

2020-09-13 18:51:01 473

Spark部署模式与作业提交一、作业提交二、Local模式三、Standalone模式三、Spark on Yarn模式一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业，其格式如下：./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Ur

2020-09-13 18:48:40 247

原创 SparkSQL外部数据源

Spark SQL 外部数据源一、简介 1.1 多数据源支持 1.2 读数据格式 1.3 写数据格式二、CSV 2.1 读

2020-09-13 18:44:12 254

原创 SparkSQL联结操作

Spark SQL JOIN一、数据准备二、连接类型 2.1 INNER JOIN 2.2 FULL OUTER JOIN 2.3 LEFT OUTER JOIN &

2020-09-06 14:27:42 360

原创 SparkSQL常用聚合函数

聚合函数Aggregations一、简单聚合 1.1 数据准备 1.2 count 1.3 countDistinct 1.

2020-09-06 14:23:33 930

原创 SparkSQL_Dataset和DataFrame简介

DataFrame和Dataset简介一、Spark SQL简介二、DataFrame & DataSet 2.1 DataFrame 2.2 DataFrame 对比 RDDs 2.3 DataSet

2020-09-06 11:53:32 265

原创 Spark_Transformation和Action算子

Transformation 和 Action 常用算子一、Transformation 1.1 map 1.2 filter 1.3 flatMap &nbs

2020-09-06 11:48:35 396

原创 Spark_Structured_API的基本使用

Structured API基本使用一、创建DataFrame和Dataset二、Columns列操作三、使用Structured API进行基本查询四、使用Spark SQL进行基本查询一、创建DataFrame和Dataset1.1 创建DataFrameSpark 中所有功能的入口点是 SparkSession，可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD，Hive 表或 Spark 数据源创建 DataFrame。示例如下：va

2020-09-06 11:46:15 387

原创 Spark_Streaming整合Kafka

Spark Streaming 整合 Kafka一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略

2020-09-06 11:44:29 714

原创 Spark_Streaming整合Flume

Spark Streaming 整合 Flume一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 &nbs

2020-09-06 11:42:18 182

原创 Spark_Streaming与流处理

Spark Streaming与流处理一、流处理 1.1 静态数据处理 1.2 流处理二、Spark Streaming 2.1 简介 &nbsp

2020-09-06 11:37:10 169

原创 Spark_Streaming基本操作

Spark Streaming 基本操作一、案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二、Transformation

2020-09-06 11:32:17 258

原创 Spark_RDD

弹性式数据集RDDs一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD&nbs

2020-09-06 11:25:34 142

原创 sqoop常见错误

常见错误：错误一：ERROR tool.ImportTool: Import failed: java.io.IOException: Generating splits for a textual index column allowed only in case of “-Dorg.apache.sqoop.splitter.allow_text_splitter=true” property passed as a parametersqoop import \--connect jdbc:m

2020-08-15 14:31:22 1779

原创 SQL、Hive场景题及答案

SQL、Hive场景题及答案点赞收藏呦！默认mysql老版本没有支持,在最新的8.0版本中支持, Oracle和Hive中都支持窗口函数，下列题目皆在Hive中实现第一题：了解哪些窗口函数，都是什么功能？找一个在某个业务中的应用？手写窗口函数及功能意义，同时随便写一个带窗口函数的sql，并说明其sql的含义。窗口函数：通常格式为可用函数+over()函数-- 查询所有明细select * from t_order;# 查询总量select count(*) from t_order

2020-08-15 14:18:42 2204

原创 Hive分桶的概念--------入门到入土（十）

Hive分桶的概念10.1 分桶的概述10.1.1 为什么要分桶- 数据分区可能导致有些分区数据过多，有些分区数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。- 分区和分桶其实都是对数据更细粒度的管理。当单个分区或者表中的数据越来越大，分区不能细粒度的划分数据时，我们就采用分桶技术将数据更细粒度的划分和管理- [CLUSTERED BY (col_name, col_name, ...)10.1.2 分桶的原理与MapReduce中的HashPartitioner的原理一模

2020-07-29 18:52:10 279

原创 Hive分区表的相关内容------入门到入土（九）

Hive分区表的相关内容9.1 分区简介9.1.1 为什么分区Hive的Select查询时，一般会扫描整个表内容。随着系统运行的时间越来越长，表的数据量越来越大，而hive查询做全表扫描，会消耗很多时间，降低效率。而有时候，我们需求的数据只需要扫描表中的一部分数据即可。这样，hive在建表时引入了partition概念。即在建表时，将整个表存储在不同的子目录中，每一个子目录对应一个分区。在查询时，我们就可以指定分区查询，避免了hive做全表扫描，从而提高查询效率。9.1.2 如何分区根据业务需求

2020-07-29 18:49:56 230

原创 Hive函数----------入门到入土（八）

Hive函数在Hive中，函数主要分两大类型，一种是内置函数，一种是用户自定义函数。8.1 Hive内置函数8.1.1 函数查看show functions;desc function functionName;8.1.2 日期函数1）当前系统时间函数：current_date()、current_timestamp()、unix_timestamp()-- 函数1：current_date(); 当前系统日期格式："yyyy-MM-dd"-- 函数2：current_time

2020-07-29 18:48:29 441

原创 Hive数据类型的讲解----入门到入土（七）

第七章 Hive数据类型的讲解在hive中，数据类型分为基础数据类型和复杂数据类型两大类型7.1 数据类型分类类型描述字面量示例基本类型BOOLEANtrue/falseTRUETINYINT1字节的有符号整数 -128~1271YSMALLINT2个字节的有符号整数，-32768~327671SINT4个字节的带符号整数1BIGINT8字节带符号整数1LFLOAT4字节单精度浮点数1.0DOUBLE8

2020-07-29 17:56:22 319

原创 Hive基本查询语法---入门到入土（六）

第六章 Hive基本查询语法6.1 基本使用规则6.1.1 基本查询语句组成select ..from .. join [tableName] on .. where .. group by .. having .. order by .. sort by .. limit ..union | union all ...6.1.2 执行顺序第一步: FROM <left_table>第二步: ON <join_condition>第三步: <j

2020-07-29 17:55:33 737

原创 Hive Shell技巧---入门到入土（五）

第五章 Hive Shell技巧5.1 查看所有hive参数# 在hive命令行直接输入set 即可hive> set5.2 只执行一次Hive命令通过shell的参数 -e 可以执行一次就运行完的命令[root@hadoop01 hive]# hive -e "select * from cat"小技巧2:可以通过外部命令快速查询某个变量值:hive -S -e “set” |grep cli.print-S 是静默模式,会省略到多余的输出5.3 单独执行一个sq

2020-07-29 17:52:58 157

原创 Hive表类型--入门到入土（四）

第四章 Hive表类型4.1 表分类在Hive中,表类型主要分为两种,第一种：内部表- 也叫管理表- 表目录会创建在集群上的{hive.metastore.warehouse.dir}下的相应的库对应的目录中。- 默认创建的表就是内部表第二种：外部表- 外部表需要使用关键字"external"，- 外部表会根据创建表时LOCATION指定的路径来创建目录，- 如果没有指定LOCATION，则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。- 建表语法：必须指定关键字exte

2020-07-29 17:51:48 153

原创 Hive基本操作-库、表---入门到入土（三）

Hive基本操作-库、表3.1 规则语法大小写规则:1. hive的数据库名、表名都不区分大小写2. 建议关键字大写命名规则：1. 名字不能使用数字开头2. 不能使用关键字3. 尽量不使用特殊符号3.2 库操作语法3.2.1 创建数据库创建数据库的本质就是在hive的参数${hive.metastore.warehouse.dir}对应的目录下，创建一个新的目录，此目录的名称为：库名.db。注意：在创建库或者表时除了创建目录外，还会在mysql中(元数据库)，添加元数据（描述信

2020-07-29 17:36:48 373

原创 Hive远程模式安装部署

Hive远程模式安装部署简介将hive中的相关进程比如hiveserver2或者metastore这样的进程单独开启，使用客户端工具或者命令行进行远程连接这样的服务，即远程模式。客户端可以在任何机器上，只要连接到这个server，就可以进行操作。客户端可以不需要密码。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CklQWtpO-1596014766859)(E:/Study/Hive/文档/Hive.assets/20191021015748.jpg)]服务端的配置

2020-07-29 17:26:50 788

原创 Hive本地模式安装部署

Hive本地模式安装部署使用mysql替换derby进行元数据的存储，hive的相关进程都是在同一台机器上，即本地模式。mysql因为是独立的进程，所以mysql可以和hive在同一机器上，也可以在其他机器上。说明：通常使用关系型数据库来进行元数据存储（mysql、oracle等执行带jdbc驱动的数据库）优点：支持多session缺点：需要配置、还需要安装mysql等关系型数据库2.2.1 配置安装mysql安装包准备#查看mysql是否安装，如果安装了，卸载mysql

2020-07-29 17:22:27 1105

原创 Hive的内嵌模式

Hive内嵌模式的安装部署Hive常用的安装分三种(注意：Hive会自动监测Hadoop的环境变量，如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft内嵌模式：使用hive自带默认元数据库derby来进行存储，通常用于测试优点：使用简单，不用进行配置缺点：只支持单session。安装步骤：1）解压hive并配置环境变量[root@hadoop01 local]# tar -zxvf apache-h

2020-07-29 17:15:24 1026

原创 Java入门到入土！(三)

第五章、流程控制5.1.流程控制的简介5.1.1. 程序的执行结构在Java中，程序的执行结构分为三种顺序结构：代码从上往下，逐行依次执行，是程序执行的默认结构。分支结构：程序在某一个节点遇到了多种向下执行的可能性，根据条件，选择一个分支继续执行。循环结构：某一段代码需要被重复执行多次。5.1.2. 流程控制的介绍流程控制，就是通过指定的语句，修改程序的执行结构。按照修改的不同的执行结构，流程控制语句可以分为：分支流程控制语句：将程序，由顺序结构，修改为分支结构

2020-07-08 17:52:15 146

原创 Thread（循环顺序执行多个线程）

第一题：问题描述使用多线程在控制台上打印出如下效果，每次只能打印一个数字。线程A: 1 2 3 4 5线程B: 6 7 8 9 10线程C: 11 12 13 14 15线程A: 16 17 18 19 20线程B: 21 22 ...............线程C: 71 72 73 74 75/** * 线程A: 1 2 3 4 5 * 线程B: 6 7 8 9 10 * 线程C: 11 12 13 14 15 * 线程A: 16 17 18 19 20 * 线程B: 21

2020-07-07 22:41:53 1226

原创 JAVA从入门到入土（二）!

JAVA从入门到入土(二)文章目录JAVA从入门到入土(二)第二章、进制2.1进制的简介2.2.进制的分类2.3. 进制的表示2.4. 进制的转换2.4.1. 十进制转其他进制2.4.2. 其他进制转十进制2.4.3. 二进制与八进制, 十六进制的相互转换2.5.原反补2.5.1. 数据的转换2.5.2. 负数的表示2.5.3. 补码的引入2.5.3.1. 符号位参与运算的问题2.5.3.2. 原反补2.5.3.3. 补码运算第三章、Java语法基础3.1. 数据类型3.1.1. 数据类型概念3.1.2.

2020-07-04 20:46:56 293

原创 JAVA从入门到入土（一）!

JAVA从入门到入土!(自己学习中整理的，大佬绕行)1.1.Java发展历程Java诞生于1995年，是由Sun公司推出的一种面向对象的编程语言。不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程。1996年，发布JDK1.01999年，发布J2SE、J2EE、J2ME2005年，更名为Java SE、Jav

2020-07-02 13:35:36 1311

**拷贝一个目录到另一个目录** //重载方法 public static void copyDir(String srcDir,String desDir){ copyDir(new File(srcDir),new File(desDir)); } /** * 拷贝文件夹 * @param src 原目录 * @param des 目标目录 */ public static void copyDir(File

2020-07-01 08:23:34 562

weixin_42947670的博客