_WeiA-CSDN博客

原创 Linux-基础环境搭建

JDK8安装包下载地址磁盘空间不够时，可挂载此目录到另一块磁盘。

2024-03-27 11:26:40 302 1

原创 hql题及答案

一点一点的成长题目来源于网络，思路自己写的有用到hql语句，或者sql语句-- 第一题：求：找出所有科目成绩都大于某一学科平均成绩的学生/*数据：1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 表结构：uid,subject_id,score*/

2021-03-26 14:32:17 343

标题1.建表及添加数据：2.题材：3.题解：题材来源于作者启明星的指引的博客sql语句练习50题(Mysql版)，题目是自己做的，个人感觉前难后易1.建表及添加数据：--建表--学生表CREATE TABLE `Student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAULT '', `s_sex` VARCHAR(10) NOT N

2021-03-13 00:05:31 238

转载 hive函数大全

Hive函数大全一、关系运算：二、数学运算：三、逻辑运算：四、数值计算五、日期函数六、条件函数七、字符串函数八、集合统计函数九、复合类型构建操作十、复杂类型访问操作十一、复杂类型长度统计函数一、关系运算：1. 等值比较: =语法：A=B操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select 1 from lxw_dual where 1=1;-- 12. 不等值比较: <>语法: A <> B操

2021-03-12 14:58:51 710

原创 Spark_SparkStreaming的容错机制

标题1.检查点机制2.驱动器程序容错3.工作节点容错4.接收器容错5.处理保证1.检查点机制它可以使Spark Streaming阶段性地把应用数据存储到诸如HDFS或Amazon S3这样的可靠存储系统中，以供恢复时使用目的：(1) 控制发生失败时需要重算的状态数: SparkStreaming可以通过转化图的谱系图来重算状态，检查点机制则可以控制需要在转化图中回溯多远。(2) 提供驱动器程序容错: 流计算应用中的驱动器程序崩溃了，可以重启驱动器程序并让驱动器程序从检查点恢复，这样Spark

2021-03-06 13:40:18 305

原创 Spark_SparkStreaming的高级数据源_Kafka

标题1. kafka之0.8版本CreateDstream方式2.kafka之0.8版本CreateDirectDstream方式3.kafka之0.10版本CreateDirectDstream方式官方文档说明：http://spark.apache.org/docs/2.2.0/streaming-kafka-integration.html目前KafkaUtils里面提供了两个创建dstream的方法，一种为KafkaUtils.createDstream，另一种为KafkaUtils.cr

2021-03-06 01:43:11 195

原创 Spark_SparkStreaming的高级数据源_flume

标题1.flume数据源1.1 pull拉方式1.2 push推方式2.3.4.使用附加数据源接收器来从一些知名数据获取系统中接收的数据，这些接收器都作为Spark Streaming的组件进行独立打包了。它们仍然是Spark的一部分，不过你需要在构建文件中添加额外的包才能使用它们。现有的接收器包括 Twitter、Apache Kafka、Amazon Kinesis、Apache Flume，以及ZeroMQ。可以通过添加与Spark版本匹配的 Maven 工件 spark-streaming-[

2021-03-04 17:38:10 517 1

原创 Spark_SparkStreaming的基本数据源

基本数据源1.Socket数据源2.文件数据源2.1 概述：2.2 实现3.4. 注意：出现：每个接收器都以 Spark 执行器程序中一个长期运行的任务的形式运行，因此会占据分配给应用的 CPU 核心。此外，还需要有可用的 CPU 核心来处理数据。解决：必须至少有和接收器数目相同的核心数，还要加上用来完成计算所需要的核心数(n+1) n为接收器数目，1为机器需要例如，如果我们想要在流计算应用中运行 10 个接收器，那么至少需要为应用分配 11 个 CPU 核心。所以如果在本地模式运行，不要

2021-03-04 16:12:57 756 1

原创 Spark_SparkStreaming中DStream介绍以及入门操作

标题DStream的介绍1.DStream简介2.DStream相关操作2.1 Transformations on DStreams2.2 Output Operations on DStreams3.DStream入门操作DStream的介绍1.DStream简介Discretized Stream是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上，DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据

2021-03-04 13:45:41 626 1

原创 Spark_SparkStreamimg介绍

标题1.Spark Streaming概述2.Spark Streaming几个特性3.SparkStreaming与Storm的对比1.Spark Streaming概述Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象

2021-03-04 12:06:21 181 3

原创 Spark_SparkSQL当中的自定义函数

标题1.导入jar包2.自定义UDF函数3.自定义UDAF函数1.导入jar包同此：https://blog.csdn.net/weixin_44449054/article/details/114327491?spm=1001.2014.3001.55012.自定义UDF函数数据：udf.txthelloworldabcstudysmallWORD需求：1、把小写字母变成大写2、输出字符长度代码：package cn.twyimport org.apache.spa

2021-03-03 21:17:14 235 1

原创 Spark_sparkSQL整合hive

标题1.整合hive2.sparkSQL使用sparkSQL官方文档：http://spark.apache.org/docs/2.2.0/sql-programming-guide.htmlSpark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中的元数据信息，然后通过SparkSql来操作数据。1.整合hi

2021-03-03 19:05:08 325 1

原创 Spark_SparkSql与MySQL进行交互

标题1.导入jar包2.读取mysql数据库当中的数据3.通过spark-shell运行加载mysql当中的数据4.将数据写入到MySQL中1.导入jar包<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.

2021-03-03 18:12:00 290 2

原创 Spark_DataSet创建及使用

标题1.什么是DataSet2.创建DataSet2.1 通过spark.createDataset通过集合进行创建dataSet2.2从已经存在的rdd当中构建dataSet2.3 通过样例类配合创建DataSet2.4 通过DataFrame转化生成3.RDD，DataFrame，DataSet互相转化1.什么是DataSetDataSet是分布式的数据集合，Dataset提供了强类型支持，也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点

2021-03-03 15:44:25 2921 3

原创 Spark_DataFrame创建及使用

标题DataFrame创建1.通过sparkSession构建DataFrame2.通过RDD配合case class进行转换DF3.通过DataSet调用.toDF进行转换DFDataFrame的使用1.DSL风格语法2.SQL风格语法DataFrame创建1.通过sparkSession构建DataFrame1、读取文本文件val personDF2 = spark.read.text("file:///export/servers/person.txt")2、读取json文件创建Data

2021-03-03 14:35:51 678

原创 Spark_RDD与DataFrame与DataSet之间的对比

标题1.RDD基本介绍2.Dataframe基本概述3.Dataset基本概述4.三者的共性5.三者的区别1.RDD基本介绍RDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简单，API的人性化程度很高。RDD的劣势是性能限制，它是一个JVM驻内存对象，这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。2.Dataframe基本概述DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还

2021-03-03 11:54:57 199

原创 Spark_Spark SQL概述

标题1.什么是Spark SQL2.为什么要学习Spark SQL3.Spark SQL的特点1.什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Spark SQL包含了对结构化数据和在其上运算的信息，使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种A

2021-03-03 11:33:47 224

原创 Spark_各类型数据的读取与写入方法

标题1.文本文件输入输出2.JSON文件输入输出3.SequenceFile文件输入输出4.对象文件输入输出5.Hadoop的读写方法6.数据库的读写6.1 Mysql的读取与写入：6.2 Hbase的读取与写入：1.文本文件输入输出1、将一个文本文件读取为 RDD 时，输入的每一行都会成为RDD的一个元素。2、也可以将多个完整的文本文件一次性读取为一个pair RDD，其中键是文件名，值是文件内容。方式：输入单个文件：sc.textFile("./README.md")输入目录所有文件：

2021-03-02 16:45:41 1144

原创 Spark_总结一下Spark的任务调度以及spark的运行架构

标题spark的任务调度1.DAGScheduler2.TaskScheduler3.执行流程spark的运行架构spark的任务调度首先了解下两个名词：1.DAGScheduler（1）DAGScheduler对DAG有向无环图进行Stage划分。（2）记录哪个RDD或者 Stage 输出被物化（缓存），通常在一个复杂的shuffle之后，通常物化一下(cache、persist)，方便之后的计算。（3）重新提交shuffle输出丢失的stage（stage内部计算出错）给TaskSched

2021-03-02 15:44:13 154

原创 Spark_RDD的缓存

标题1.RDD缓存方式2.Spark RDD Cache3.cache和persist的区别Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个节点都将把计算分区结果保存在内存中，对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。1.RDD缓存方式缓存方法： RDD通过persist方法或cache

2021-03-02 15:25:16 1733

原创 Spark_RDD之间的依赖关系&DAG的生成&shuffle过程

标题依赖关系1.RDD的依赖2.窄依赖3.宽依赖4.Lineage（血统）DAG的生成什么是DAG？shuffle过程1.SortShuffleManager基本介绍2.Sort shuffle的bypass机制依赖关系1.RDD的依赖两种不同的类型：窄依赖（narrow dependency）和宽依赖（wide dependency）。2.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用3.宽依赖宽依赖指的是多个子RDD的Partition会

2021-03-02 15:09:43 592

原创 Spark_通过Spark实现ip地址查询

标题1.需求分析2.数据准备3.代码思路4.代码1.需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。我们根据每个用户的IP地址，与我们的IP地址段进行比较，确认每个IP落在哪一个IP端内，获取经纬度，然后绘制热力图我们需要通过日志信息（运行商或者网站自己生成）和城市ip段信息来判断用户的ip段，统计热点经纬度。2.数据准备ip日志信息：在ip日志信息中，只需要关心ip这一个维度就可以了

2021-03-02 01:20:58 678

原创 Spark_通过spark实现点击流日志分析

标题1.导入jar包2.访问的pv3.访问的uv4.访问的topN日志文件格式：子段之间使用空格相隔1.导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> &

2021-03-01 23:18:53 251

原创 Spark_RDD的创建方式以及RDD的算子

标题RDD的创建方式RDD的算子1.RDD的算子分类2.常用的transformation操作示例3.常用的action操作示例RDD的创建方式第一种：由一个已经存在的集合创建val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))第二种：由外部存储文件创建包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等。val rdd2 = sc.textFile("/words.txt")第三种：由已有的RDD

2021-03-01 00:06:05 204

原创 Spark_RDD基本概念

标题1.什么是RDD2. 为什么会产生RDD3.RDD的属性4.RDD运行图5.RDD弹性6. RDD特点1.什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度Dataset：一个数据集合，用于存放数据的。Distributed： RDD中的数据是分布式

2021-02-28 19:17:26 141

原创 Spark_使用java开发spark程序

标题1.导依赖包2.代码实现3.运行结果1.导依赖包同：https://blog.csdn.net/weixin_44449054/article/details/1142230022.代码实现package cn.twy;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apa

2021-02-28 16:20:59 1021

原创 Spark_使用scala开发spark程序

标题1.创建maven工程并导入jar包2.开发scala代码3.本地运行4.更改代码打包提交到spark集群运行5.运行spark的jar包程序1.创建maven工程并导入jar包创建src/main/scala以及 src/test/scala文件夹<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.ver

2021-02-28 16:02:32 1387

原创 Spark_spark-shell的使用

标题1.运行spark-shell --master local[N] 读取本地文件2.运行spark-shell --master local[N] 读取hdfs上面的文件3.运行spark-shell --master spark://node01:70771.运行spark-shell --master local[N] 读取本地文件单机模式：通过本地N个线程跑任务，只运行一个SparkSubmit进程。创建本地文件，使用spark程序实现单词计数统计1、准备本地文件node01服务

2021-02-28 14:30:05 701

原创 Spark_spark任务提交说明

spark任务提交说明bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <application-jar> \ [application-arguments]一些常用选项:--cl

2021-02-28 13:33:30 191

原创 Spark_yarn访问历史日志界面

1、三台机器修改yarn-site.xml配置文件node01修改yarn-site.xmlcd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim yarn-site.xml<property> <name>yarn.log.server.url</name> <value>http://node01:19888/jobhistory/logs</valu

2021-02-27 23:44:39 153

原创 Spark_spark的集群环境安装搭建

标题1.spark local模式运行环境搭建2.spark的standAlone模式3.spark的HA模式4.spark的on yarn模式1.spark on yarn client模式提交任务2.spark on yarn cluster模式提交任务1.spark local模式运行环境搭建常用于本地开发测试，本地还分为local单线程和local-cluster多线程;该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，用于验证开

2021-02-27 23:28:01 248

原创 Spark_CDH版spark的重新编译

由于我们所有的环境统一使用CDH的软件版本，并且对应的CDH版本是5.14.0这个版本，所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark1.x，并且CDH版本的spark不支持sparkSQL的功能（sparkSQL模块被阉割掉了），因为Cloudera公司认为有了impala就不需要再使用sparkSQL的功能了，同时也是为了推广impala，所以直接阉割掉了sparkSQL的模块。我们可以使用Apache

2021-02-27 21:12:44 314

空空如也

空空如也