自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 收藏
  • 关注

原创 Linux-基础环境搭建

JDK8安装包下载地址磁盘空间不够时,可挂载此目录到另一块磁盘。

2024-03-27 11:26:40 302 1

原创 Linux-跨节点免密登录

linux免密登录

2024-03-27 11:00:56 295

原创 hql题及答案

一点一点的成长题目来源于网络,思路自己写的有用到hql语句,或者sql语句-- 第一题:求:找出所有科目成绩都大于某一学科平均成绩的学生/*数据:1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 表结构:uid,subject_id,score*/

2021-03-26 14:32:17 343

原创 SQL题(已二刷)

标题1.建表及添加数据:2.题材:3.题解:题材来源于作者启明星的指引的博客sql语句练习50题(Mysql版),题目是自己做的,个人感觉前难后易1.建表及添加数据:--建表--学生表CREATE TABLE `Student`( `s_id` VARCHAR(20), `s_name` VARCHAR(20) NOT NULL DEFAULT '', `s_birth` VARCHAR(20) NOT NULL DEFAULT '', `s_sex` VARCHAR(10) NOT N

2021-03-13 00:05:31 238

转载 hive函数大全

Hive函数大全一、关系运算:二、数学运算:三、逻辑运算:四、数值计算五、日期函数六、条件函数七、字符串函数八、集合统计函数九、复合类型构建操作十、复杂类型访问操作十一、复杂类型长度统计函数一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive>select 1 from lxw_dual where 1=1;-- 12. 不等值比较: <>语法: A <> B操

2021-03-12 14:58:51 710

原创 Spark_SparkStreaming的容错机制

标题1.检查点机制2.驱动器程序容错3.工作节点容错4.接收器容错5.处理保证1.检查点机制它可以使Spark Streaming阶段性地把应用数据存储到诸如HDFS或Amazon S3这样的可靠存储系统中, 以供恢复时使用目的:(1) 控制发生失败时需要重算的状态数: SparkStreaming可以通过转化图的谱系图来重算状态,检查点机制则可以控制需要在转化图中回溯多远。(2) 提供驱动器程序容错: 流计算应用中的驱动器程序崩溃了,可以重启驱动器程序并让驱动器程序从检查点恢复,这样Spark

2021-03-06 13:40:18 305

原创 Spark_SparkStreaming的高级数据源_Kafka

标题1. kafka之0.8版本CreateDstream方式2.kafka之0.8版本CreateDirectDstream方式3.kafka之0.10版本CreateDirectDstream方式官方文档说明:http://spark.apache.org/docs/2.2.0/streaming-kafka-integration.html目前KafkaUtils里面提供了两个创建dstream的方法,一种为KafkaUtils.createDstream,另一种为KafkaUtils.cr

2021-03-06 01:43:11 195

原创 Spark_SparkStreaming的高级数据源_flume

标题1.flume数据源1.1 pull拉方式1.2 push推方式2.3.4.使用附加数据源接收器来从一些知名数据获取系统中接收的数据,这些接收器都作为Spark Streaming的组件进行独立打包了。它们仍然是Spark的一部分,不过你需要在构建文件中添加额外的包才能使用它们。现有的接收器包括 Twitter、Apache Kafka、Amazon Kinesis、Apache Flume,以及ZeroMQ。可以通过添加与Spark版本匹配 的 Maven 工件 spark-streaming-[

2021-03-04 17:38:10 517 1

原创 Spark_SparkStreaming的基本数据源

基本数据源1.Socket数据源2.文件数据源2.1 概述:2.2 实现3.4. 注意:出现:每个接收器都以 Spark 执行器程序中一个长期运行的任务的形式运行,因此会占据分配给应用的 CPU 核心。此外,还需要有可用的 CPU 核心来处理数据。解决:必须至少有和接收器数目相同的核心数,还要加上用来完成计算所需要的核心数(n+1) n为接收器数目,1为机器需要例如,如果我们想要在流计算应用中运行 10 个接收器,那么至少需要为应用分配 11 个 CPU 核心。所以如果在本地模式运行,不要

2021-03-04 16:12:57 756 1

原创 Spark_SparkStreaming中DStream介绍以及入门操作

标题DStream的介绍1.DStream简介2.DStream相关操作2.1 Transformations on DStreams2.2 Output Operations on DStreams3.DStream入门操作DStream的介绍1.DStream简介Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据

2021-03-04 13:45:41 626 1

原创 Spark_SparkStreamimg介绍

标题1.Spark Streaming概述2.Spark Streaming几个特性3.SparkStreaming与Storm的对比1.Spark Streaming概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象

2021-03-04 12:06:21 181 3

原创 Spark_SparkSQL当中的自定义函数

标题1.导入jar包2.自定义UDF函数3.自定义UDAF函数1.导入jar包同此:https://blog.csdn.net/weixin_44449054/article/details/114327491?spm=1001.2014.3001.55012.自定义UDF函数数据:udf.txthelloworldabcstudysmallWORD需求:1、把小写字母变成大写2、输出字符长度代码:package cn.twyimport org.apache.spa

2021-03-03 21:17:14 235 1

原创 Spark_sparkSQL整合hive

标题1.整合hive2.sparkSQL使用sparkSQL官方文档:http://spark.apache.org/docs/2.2.0/sql-programming-guide.htmlSpark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中的元数据信息,然后通过SparkSql来操作数据。1.整合hi

2021-03-03 19:05:08 325 1

原创 Spark_SparkSql与MySQL进行交互

标题1.导入jar包2.读取mysql数据库当中的数据3.通过spark-shell运行加载mysql当中的数据4.将数据写入到MySQL中1.导入jar包<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.

2021-03-03 18:12:00 290 2

原创 Spark_DataSet创建及使用

标题1.什么是DataSet2.创建DataSet2.1 通过spark.createDataset通过集合进行创建dataSet2.2从已经存在的rdd当中构建dataSet2.3 通过样例类配合创建DataSet2.4 通过DataFrame转化生成3.RDD,DataFrame,DataSet互相转化1.什么是DataSetDataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点

2021-03-03 15:44:25 2921 3

原创 Spark_DataFrame创建及使用

标题DataFrame创建1.通过sparkSession构建DataFrame2.通过RDD配合case class进行转换DF3.通过DataSet调用.toDF进行转换DFDataFrame的使用1.DSL风格语法2.SQL风格语法DataFrame创建1.通过sparkSession构建DataFrame1、读取文本文件val personDF2 = spark.read.text("file:///export/servers/person.txt")2、读取json文件创建Data

2021-03-03 14:35:51 678

原创 Spark_RDD与DataFrame与DataSet之间的对比

标题1.RDD基本介绍2.Dataframe基本概述3.Dataset基本概述4.三者的共性5.三者的区别1.RDD基本介绍RDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简单,API的人性化程度很高。RDD的劣势是性能限制,它是一个JVM驻内存对象,这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。2.Dataframe基本概述DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还

2021-03-03 11:54:57 199

原创 Spark_Spark SQL概述

标题1.什么是Spark SQL2.为什么要学习Spark SQL3.Spark SQL的特点1.什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Spark SQL包含了对结构化数据和在其上运算的信息,使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL,包括SQL、DataFrames API和Datasets API。但无论是哪种A

2021-03-03 11:33:47 224

原创 Spark_各类型数据的读取与写入方法

标题1.文本文件输入输出2.JSON文件输入输出3.SequenceFile文件输入输出4.对象文件输入输出5.Hadoop的读写方法6.数据库的读写6.1 Mysql的读取与写入:6.2 Hbase的读取与写入:1.文本文件输入输出1、将一个文本文件读取为 RDD 时,输入的每一行 都会成为RDD的一个元素。2、也可以将多个完整的文本文件一次性读取为一个pair RDD, 其中键是文件名,值是文件内容。方式:输入单个文件:sc.textFile("./README.md")输入目录所有文件:

2021-03-02 16:45:41 1144

原创 Spark_总结一下Spark的任务调度以及spark的运行架构

标题spark的任务调度1.DAGScheduler2.TaskScheduler3.执行流程spark的运行架构spark的任务调度首先了解下两个名词:1.DAGScheduler(1)DAGScheduler对DAG有向无环图进行Stage划分。(2)记录哪个RDD或者 Stage 输出被物化(缓存),通常在一个复杂的shuffle之后,通常物化一下(cache、persist),方便之后的计算。(3)重新提交shuffle输出丢失的stage(stage内部计算出错)给TaskSched

2021-03-02 15:44:13 154

原创 Spark_RDD的缓存

标题1.RDD缓存方式2.Spark RDD Cache3.cache和persist的区别Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后,每一个节点都将把计算分区结果保存在内存中,对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。1.RDD缓存方式缓存方法: RDD通过persist方法或cache

2021-03-02 15:25:16 1733

原创 Spark_RDD之间的依赖关系&DAG的生成&shuffle过程

标题依赖关系1.RDD的依赖2.窄依赖3.宽依赖4.Lineage(血统)DAG的生成什么是DAG?shuffle过程1.SortShuffleManager基本介绍2.Sort shuffle的bypass机制依赖关系1.RDD的依赖两种不同的类型:窄依赖(narrow dependency)和宽依赖(wide dependency)。2.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用3.宽依赖宽依赖指的是多个子RDD的Partition会

2021-03-02 15:09:43 592

原创 Spark_通过Spark实现ip地址查询

标题1.需求分析2.数据准备3.代码思路4.代码1.需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。我们根据每个用户的IP地址,与我们的IP地址段进行比较,确认每个IP落在哪一个IP端内,获取经纬度,然后绘制热力图我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。2.数据准备ip日志信息:在ip日志信息中,只需要关心ip这一个维度就可以了

2021-03-02 01:20:58 678

原创 Spark_通过spark实现点击流日志分析

标题1.导入jar包2.访问的pv3.访问的uv4.访问的topN日志文件格式:子段之间使用空格相隔1.导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> &

2021-03-01 23:18:53 251

原创 Spark_RDD的创建方式以及RDD的算子

标题RDD的创建方式RDD的算子1.RDD的算子分类2.常用的transformation操作示例3.常用的action操作示例RDD的创建方式第一种:由一个已经存在的集合创建val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))第二种:由外部存储文件创建包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。val rdd2 = sc.textFile("/words.txt")第三种:由已有的RDD

2021-03-01 00:06:05 204

原创 Spark_RDD基本概念

标题1.什么是RDD2. 为什么会产生RDD3.RDD的属性4.RDD运行图5.RDD弹性6. RDD特点1.什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度Dataset: 一个数据集合,用于存放数据的。Distributed: RDD中的数据是分布式

2021-02-28 19:17:26 141

原创 Spark_使用java开发spark程序

标题1.导依赖包2.代码实现3.运行结果1.导依赖包同:https://blog.csdn.net/weixin_44449054/article/details/1142230022.代码实现package cn.twy;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apa

2021-02-28 16:20:59 1021

原创 Spark_使用scala开发spark程序

标题1.创建maven工程并导入jar包2.开发scala代码3.本地运行4.更改代码打包提交到spark集群运行5.运行spark的jar包程序1.创建maven工程并导入jar包创建src/main/scala以及 src/test/scala文件夹<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.ver

2021-02-28 16:02:32 1387

原创 Spark_spark-shell的使用

标题1.运行spark-shell --master local[N] 读取本地文件2.运行spark-shell --master local[N] 读取hdfs上面的文件3.运行spark-shell --master spark://node01:70771.运行spark-shell --master local[N] 读取本地文件单机模式:通过本地N个线程跑任务,只运行一个SparkSubmit进程。创建本地文件,使用spark程序实现单词计数统计1、准备本地文件node01服务

2021-02-28 14:30:05 701

原创 Spark_spark任务提交说明

spark任务提交说明bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <application-jar> \ [application-arguments]一些常用选项:--cl

2021-02-28 13:33:30 191

原创 Spark_yarn访问历史日志界面

1、三台机器修改yarn-site.xml配置文件node01修改yarn-site.xmlcd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim yarn-site.xml<property> <name>yarn.log.server.url</name> <value>http://node01:19888/jobhistory/logs</valu

2021-02-27 23:44:39 153

原创 Spark_spark的集群环境安装搭建

标题1.spark local模式运行环境搭建2.spark的standAlone模式3.spark的HA模式4.spark的on yarn模式1.spark on yarn client模式提交任务2.spark on yarn cluster模式提交任务1.spark local模式运行环境搭建常用于本地开发测试,本地还分为local单线程和local-cluster多线程;该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,用于验证开

2021-02-27 23:28:01 248

原创 Spark_CDH版spark的重新编译

由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark1.x,并且CDH版本的spark不支持sparkSQL的功能(sparkSQL模块被阉割掉了),因为Cloudera公司认为有了impala就不需要再使用sparkSQL的功能了,同时也是为了推广impala,所以直接阉割掉了sparkSQL的模块。我们可以使用Apache

2021-02-27 21:12:44 314

原创 Spark_spark的基本介绍

Spark概述官网http://spark.apache.org/Spark是什么?用官网的一句话来概括,就是Apache Spark™是一个用于大规模数据处理的统一分析引擎。 (Apache Spark™ is a unified analytics engine for large-scale data processing.)Apache Spark是一个快速、通用的集群计算系统。它提供了Java、Scala、Python和R的高级api,以及支持一般执行图的优化引擎。它还支持一组丰富的高

2021-02-27 20:18:42 704

原创 Hbase_HBase整合hue

标题1.修改hue.ini2.启动hbase的thrift server服务3.启动hue4.第四步:1.修改hue.inicd /export/servers/hue-3.9.0-cdh5.14.0/desktop/confvim hue.ini[hbase] hbase_clusters=(Cluster|node01:9090) hbase_conf_dir=/export/servers/hbase-1.2.0-cdh5.14.0/conf2.启动hbase的thrift se

2021-02-26 18:17:54 165

原创 Hbase_Hbase中二级索引的基本介绍以及协处理器

标题二级索引的基本介绍协处理器1.出现2.协处理器有两种: observer 和 endpoint3.协处理器加载方式4.协处理器Observer应用实战二级索引的基本介绍出现原因:由于HBase的查询比较弱,如果需要实现类似于 select name,salary,count(1),max(salary) from user group by name,salary order by salary 等这样的复杂性的统计需求,基本上不可能,或者说比较困难,所以我们在使用HBase的时候,

2021-02-26 18:04:07 268

原创 Hbase_HBase的rowKey设计技巧

标题1.Hbase里的查询规则2.rowkey长度原则3.rowkey散列原则4.rowkey唯一原则5.热点问题6.设计原则1.Hbase里的查询规则HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:1. 通过get方式,指定rowkey获取唯一一条记录2.

2021-02-26 12:09:36 247

原创 Hbase_预分区

标题1.为何要预分区?2.如何预分区?3.设定预分区的方式1.为何要预分区?1、增加数据读写效率2、负载均衡,防止数据倾斜3、方便集群容灾调度region4、优化Map数量2.如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。3.设定预分区的方式官方文档:http://abloz.com/hbase/book.html#ops.regionmgt1、手动指定预分区h

2021-02-26 11:30:38 117

原创 Hbase_Sqoop整合HBase

标题修改sqoop配置文件1.需求一:将mysql表当中的数据导入到HBase当中来2. 需求二:将HBase当中的数据导出到mysql当中来sqoop是一个数据导入导出的工具,可以将关系型数据库当中的数据导入到大数据平台来,也可以将大数据平台当中的数据导入到关系型数据库当中去我们也可以通过sqoop导入数据到hbase或者从hbase当中导出数据修改sqoop配置文件修改sqoop的配置文件sqoop-env.shcd /export/servers/sqoop-1.4.6-cdh5.14.0

2021-02-25 17:28:58 131

原创 Hbase_Hbase与hive整合

标题hbase与hive的对比hive与HBase的整合1.步骤2.案例一:将hive分析结果的数据,保存到HBase当中去3.案例二:创建hive外部表,映射HBase当中已有的表模型hbase与hive的对比HiveHBase数据仓库数据库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。是一种面向列存储的非关系型数据库。用于数据分析、清洗用于存储结构化和非结构话的数据基于HDFS、MapRe

2021-02-25 15:18:41 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除