自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (1)
  • 收藏
  • 关注

原创 3、排序与分页

排序与分页1. 排序数据1.1 排序规则使用 ORDER BY 子句排序ASC(ascend): 升序DESC(descend):降序ORDER BY 子句在SELECT语句的结尾。1.2 单列排序SELECT last_name, job_id, department_id, hire_dateFROM employeesORDER BY hire_date ;SELECT last_name, job_id, department_id, hire_d

2021-12-08 14:36:02 173

原创 2、运算符

运算符1. 算术运算符算术运算符主要用于数学运算,其可以连接运算符前后的两个数值或表达式,对数值或表达式进行加(+)、减(-)、乘(*)、除(/)和取模(%)运算。1.加法与减法运算符mysql> SELECT 100, 100 + 0, 100 - 0, 100 + 50, 100 + 50 -30, 100 + 35.5, 100 - 35.5 FROM dual;+-----+---------+---------+----------+--------------+-------

2021-12-08 14:14:13 230

原创 1、基本的select语句

基本的SELECT语句1. SQL概述1.1 SQL背景知识1946 年,世界上第一台电脑诞生,如今,借由这台电脑发展起来的互联网已经自成江湖。在这几十年里,无数的技术、产业在这片江湖里沉浮,有的方兴未艾,有的已经几幕兴衰。但在这片浩荡的波动里,有一门技术从未消失,甚至“老当益壮”,那就是 SQL。45 年前,也就是 1974 年,IBM 研究员发布了一篇揭开数据库技术的论文《SEQUEL:一门结构化的英语查询语言》,直到今天这门结构化的查询语言并没有太大的变化,相比于其他语言,SQL 的半

2021-12-07 16:26:57 389

原创 Spark-Spark Streaming(4)-- 部署、监控

如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢

2021-05-10 14:32:58 390

原创 Spark-Spark Streaming(3)-- 缓存、检查点、广播变量

如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢目录1、Caching / Persistence缓存/持久化2、Checkpointing检查点2.1、When to enable Checkpointing何时启用检查点2.2、How to configure Checkpointing如何配置检查点3、Accumulators, Broadcast Variables, and Check...

2021-05-10 00:25:54 256

原创 Spark-Spark Streaming(2)-- 输入、转换、输出

如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢上一节我们通过简单的一个案列认识了SparkStreaming,接下来,我们将超越简单的示例,详细介绍 Spark Streaming 的基本知识。基本概念1、链接与 Spark 类似,Spark Streaming 可以通过 Maven Central 获得。要编写自己的 Spark Streaming 程序,您必须向 SBT 或 Maven 项目添加以下.

2021-05-08 14:15:18 551

原创 Spark-Spark Streaming(1)-- 入门案例

如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢如果觉得不错,请给博主点个赞呗!!! 谢谢目录1、概览2、一个简单的例子1、概览 Spark Streaming 是核心 Spark API 的扩展,它支持对实时数据流进行可伸缩的、高吞吐量的、容错的流处理。数据可以从 Kafka、 Kinesis 或 TCP sockets 等许多来源获取,也可以使用 map、 reduce、 join 和 window 等高级函数表示的复杂算法进行处理。...

2021-05-08 10:54:27 287 3

转载 52条SQL语句,性能优化,干货必收藏 !

1, 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2,应尽量避免在 where 子句中对字段进行 null 值判断,创建表时NULL是默认值,但大多数时候应该使用NOT NULL,或者使用一个特殊的值,如0,-1作为默 认值。3,应尽量避免在 where 子句中使用!=或<>操作符, MySQL只有对以下操作符才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些时候的LIKE。..

2021-04-29 09:16:10 90

原创 kafka server 参数配置

参数说明broker.id =0#每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响consumers的消息情况log.dirs=/mnt/kafka/log#kafka数据的存放地址,多个地址的话用逗号分割。listeners=PLAINTEXT://192.100.36.247:9092#监听地址port =9092#broker server服务端口message.max.byte...

2021-04-26 18:29:13 465

原创 窗口函数:LAG、LEAD、FIRST_VALUE、LAST_VALUE

窗口函数:LAG、LEAD、FIRST_VALUE、LAST_VALUEFIRST_VALUE功能:取每个分区内某列的第一个值语法:FIRST_VALUE(col) over (partition by col1 order by col2)示例:–取每个部门薪资最高的员工编号selectempno,ename,salary,deptno,FIRST_VALUE(ename) over (partition by deptno order by salary desc) as firs

2021-04-26 10:51:35 406

原创 窗口函数:SUM、AVG、COUNT、MAX、MIN

窗口函数:SUM、AVG、COUNT、MAX、MIN-》功能:用于实现数据分区后的聚合-》语法:fun_name(col1) over (partition by col2 order by col3)实现功能 over 按照什么分区,分区内部按照什么排序-》示例:实现分区内的累加,其他的原理类似-》区别:聚合函数:分组group by :一组返回一条开窗聚合:分区partition by:将相同的数据放到一起–创建文件:vim /export/datas/window.txtcoo

2021-04-26 10:50:23 1993

原创 hive中处理json数据的函数

Hive中处理json数据的两种方式第一种:将json数据作为字符串进行处理使用函数:get_json_object:解析json数据,返回对应的数据json_tuple:UDTF函数使用案例:–创建数据:vim /export/datas/hivedata.json{“id”: 1701439105,“ids”: [2154137571,3889177061],“total_number”: 493}{“id”: 1701439106,“ids”: [2154137571,38891770

2021-04-26 10:42:10 809

原创 Hive中explode、lateral view以及行列转换的使用

=====================================lateral view==================================分类:视图功能:配合UDTF来使用,把某一行数据拆分成多行数据 与UDTF直接使用的区别: 很多的UDTF不能将结果与源表进行关联,使用lateral view 可以将UDTF拆分的单个字段数据与原始表数据关联上使用方式: tabelA lateral view UDTF(xxx) 视图名 ...

2021-04-26 10:39:34 372

原创 Hive中UDF的使用方法

UDF:1-开发udf程序:继承UDF类,实现一个或者多个evaluate方法2-打成jar包3-上传jar包到集群中,并添加到hive的环境变量中,在hive中执行 add jar /export/datas/udf.jar;4-创建临时函数: create temporary function transDate as 'cn.itcast.bigdata.hive.TransDate';5-测试函数: select transDate("18/Aug/2019:12...

2021-04-26 10:33:29 1005

原创 RDD转换为DataSet和DataFrame

1、Spark SQL支持两种将现有rdd转换为Datasets的方法。第一种方法使用反射来推断包含特定类型对象的RDD的schema。在编写Spark应用程序时,如果您已经了解了schema,那么这种基于反射的方法可以产生更简洁的代码。2、创建Datasets的第二种方法是通过一个编程接口,该接口允许您构造一个schema,然后将它应用到现有的RDD。虽然此方法更加详细,但当列及其类型直到运行时才知道时,它允许您构造Datasets。1、反射推断Spark SQL的Scala接口支持将包含case类

2021-04-25 15:36:12 1688

原创 Spark原理初探

1.Application:指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。2.Driver:Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext,SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等3.Cluster Manager:指的是在集群上获取资源的外部服务,Standalone模式下由Master负责,Yarn模式下

2021-04-25 10:22:44 126

原创 Spark中文文档翻译3.1.1-Spark RDD Guide--弹性分布式数据集(RDDs)

如果觉得内容不错,别忘记一键三连哦!!!

2021-04-22 18:11:46 302

原创 Spark中文文档翻译3.1.1-Spark RDD Guide--概览和初始化

如果觉得内容不错,别忘记一键三连哦!!!

2021-04-22 16:21:59 254

原创 Spark中文文档翻译3.1.1-Spark SQL Guide--dataSource

Data SourcesSpark SQL支持通过DataFrame接口在各种数据源上运行。数据帧可以使用关系转换进行操作,也可以用来创建临时视图。将数据帧注册为临时视图允许对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法,然后介绍内置数据源可用的特定选项。Generic Load/Save Functions在最简单的形式中,默认的数据源(parquet,除非由spark.sql.sources.default配置)将用于所有操作。val usersDF = spark

2021-04-22 15:52:21 498

原创 Spark中文文档翻译3.1.1-Spark SQL Guide--Getting Started

Getting Started

2021-04-21 17:53:38 341

原创 Spark中文文档翻译3.1.1-Spark SQL Guide--Spark SQL, DataFrames and Datasets Guide

Spark SQL, DataFrames and Datasets GuideSpark SQL是用于结构化数据处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息来执行额外的优化。 与Spark SQL交互的方法有多种,包括SQL和Dataset API。 计算结果时,将使用相同的执行引擎,而与要用来表达计算的API /语言无关。 这种统一意味着开发人员可以轻

2021-04-21 16:37:11 182

原创 CDH-5.14.0版本编译Spark 2.2.0源码

针对CDH-5.14.0版本编译Spark 2.2.0源码,步骤如下:1、安装JDK及设置环境变量2、安装MAVEN及设置仓库位置 2.1、仓库压缩包解压 2.2、设置仓库位置 $MAVEN_HOME/conf/settings.xml 增加内容: <localRepository>/opt/modules/mvnrepository</localRepository>3、下载Spark源码及配置 ...

2021-04-12 11:35:16 150

原创 scala系列(6)-- 函数

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!Scala 是一种有趣的语言,它一方面吸收继承了多种语言中的优秀特性,一方面又没有抛弃 Java 这个强大的平台,它运行在 Java 虚拟机(Java Virtual Machine)之上,轻松实现和丰富的 Java 类库互联互通。它即支持面向对象的编程方式,又支持函数式编程。它写出的程序像动态语言一样简洁,但事实上它却是严格意义上的静态语言。1.1 foreachforeach主要格式foreach(f: (A) =>

2021-04-01 16:54:04 78

原创 Scala系列(5)-元组、列表、集、映射

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!这期我们来讲一下scala的一些集合特性。希望大家可以从中学到一些知识。1. 元组元组可以用来包含一组不同类型的值。例如:姓名,年龄,性别,出生年月。元组的元素是不可变的。1.1 定义元组语法1、使用括号来定义元组val/var 元组 = (元素1, 元素2, 元素3....)2、使用箭头来定义元组(元组只有两个元素)val/var 元组 = 元素1->元素2示例// 定义一个学生的元组 使用括号sca

2021-04-01 14:02:32 232

原创 Scala系列(4)- 数组

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!1、数组1.1 定长数组定长数组指的是数组的长度是不允许改变的数组的元素是可以改变的语法// 通过指定长度定义数组val/var 变量名 = new Array[元素类型](数组长度)// 用元素直接初始化数组val/var 变量名 = Array(元素1, 元素2, 元素3...)参考代码// 通过指定长度定义数组scala> val a = new Array[Int](5)a: Array[

2021-04-01 11:25:21 103

原创 Scala系列(3)- 方法、函数

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!好了今天就给大家写这么多了,咱们下一期再见,下一期给大家讲解方法和函数的用法给大家准备的各类书籍都在这里啦,收集不易,期待您的一键三连,后续还会更新文章哦,谢谢您的关注和点赞,您的点赞会让我有加倍动力https://shimo.im/docs/863dvkxgWHtwcWkh/ 《书籍》...

2021-04-01 10:23:04 140

原创 Scala系列(2)- 数据类型、条件表达式

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!大家看了上一期的内容,想必大家对如何定义变量和字符串已经有了一个认识,是不是比java的简洁优雅呢,这节哦我们来讲解scala里面的数据类型和条件表达式,让你看看和java里面的有什么不一样。希望您喜欢。喜欢的话就给个关注呗。如果有不足的地方。请指教好了今天就给大家写这么多了,咱们下一期再见,下一期给大家讲解数据类型和条件表达式给大家准备的各类书籍都在这里啦,收集不易,期待您的一键三连,后续还会更新文章哦,谢谢您的关注和点赞,您的

2021-03-31 19:12:07 135

原创 Scala系列(1)- 变量、字符串

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!学习scala很久了,今天想把学到的给大家分享一下,我想了很久不知道如何开始写scala的内容,后来想,那就从基础的给大家讲起把。希望大家喜欢1. 声明变量1.1 完整定义在scala中,我们使用val或者var来定义变量,语法格式如下:// val 定义的是不可重新赋值的变量// var 定义的是可以重新赋值的变量val/var 变量名:变量类型 = 初始值eg: val name:String = "jack"

2021-03-31 15:38:50 301

原创 kafka系列(6)- 序列化器

在上一节的例子中,我们看到,创建一个生产者对象必须指定序列化器,我们已经知道如何使用默认的,kafka还提供了整形和字节数组序列化器,不过还不足以满足大部分的场景,我们下面讲解一下如何开发自己的序列化器1、自定义序列化器如果发送到kafka的数据不是简单的字符串或者数值类型,那么可以使用序列化框架来创建消息记录,如Avro、Thrift、Protobuf,或者使用自定义序列化器。还是建议用通用的框架,但是为了了解原理,就来看看如何定义序列化器1)创建一个类package cn.haojia.xuli

2021-03-30 16:35:34 301

原创 filebeat-kafka-logstash-elastic

1、filebeat取数据发送到kafka使用日志输入从日志文件中读取行。要配置此输入,请指定一个基于全局的路径列表,必须爬行这些路径才能定位和获取日志行。filebeat.inputs:// 发送到 topic1- type: log paths: - /var/log/system.log - /var/log/wifi.log fields: log_topic: topic1// 发送到 topic2- type: log paths:

2021-03-30 14:43:37 447

原创 kafka系列(5)- api操作

1、创建maven工程并添加jar包创建maven工程并添加以下依赖jar包的坐标到pom.xml<dependencies><!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients --><dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...

2021-03-29 15:30:09 253

原创 kafka系列(4)- kafka集群操作

文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!目录1、创建topic2、查看主题命令3、生产者生产数据4、消费者消费数据5、运行describe topics命令6、增加topic分区数7、增加配置8、删除配置9、删除topic1、创建topic创建一个名字为test的主题, 有三个分区,有两个副本bin/kafka-topics.sh --create --zookeeper node01:2181 --replica..

2021-03-29 14:51:30 371

原创 kafka系列(3)- kafka的安装

码字不易,先赞后看,文末有大量学习资源哦,免费领取。如果觉得内容不错,别忘记一键三连哦!!!给大家准备的各类书籍都在这里啦,收集不易,期待您的一键三连,后续还会更新文章哦,谢谢您的关注和点赞,您的点赞会让我有加倍动力链接:https://pan.baidu.com/s/1MH1eiwMv_XCCbFX3hwGu7g提取码:70uyhttps://shimo.im/docs/863dvkxgWHtwcWkh/ 《书籍》...

2021-03-29 14:04:45 312

转载 metricbeat采集指标

指标类型指标指标含义cpusystem.cpu.total.pctcpu使用总的百分比cpusystem.cpu.corescpu核数cpusystem.cpu.iowait.pct等待输入输出的CPU时间百分比cpusystem.cpu.user.pct用户空间占用CPU百分比cpusystem.cpu.system.pct内核空间占用CPU百分比cpusystem.cpu.nice.pct进程改变占用CPU百分比cpus...

2021-03-26 15:46:55 464

原创 kafka系列(2)- 架构介绍和主要组件说明

码字不易,先赞后看,文末有大量学习资源哦,免费领取。如果内容觉得不错,别忘记一键三连哦!!!给大家准备的各类书籍都在这里啦,收集不易,期待您的一键三连,后续还会更新文章哦,谢谢您的关注和点赞,您的点赞会让我有加倍动力链接:https://pan.baidu.com/s/1MH1eiwMv_XCCbFX3hwGu7g提取码:70uyhttps://shimo.im/docs/863dvkxgWHtwcWkh/ 《书籍》...

2021-03-25 22:08:00 189 1

原创 kafka系列(1)- 消息队列介绍以及应用场景

最近,博主想把自己学到的东西给大家慢慢的分享一下,好久就想这么做了,一直没有时间去弄,今天开始,要把自己的所学带给大家,希望大家喜欢大数据,如果内容觉得不错,别忘记一键三连哦!!!...

2021-03-24 11:03:59 587 2

原创 hive动态分区

1.分区的类型一般来说,分区分为两种,一种是静态分区,一种是

2021-01-15 15:02:15 276

原创 CentOS7 安装 PostgreSQL的详细步骤

版本信息: CentOS版本:CentOS-7-x86_64-Minimal-1810 PostgreSQL版本: PostgreSQL 9.5, 64-bit第一部分:PostgresSQL的安装1、安装rpm文件yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm2、安装客户端yum...

2020-07-31 17:48:26 4638 1

原创 FP Growth原理

  在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。1.FP Tree数据结构    为了减少I...

2020-01-03 13:18:41 171

原创 磁盘扩容详解教程

1、首先关闭虚拟机点击编辑虚拟机设置2、点击想要扩容的硬盘点击扩容3、增加容量输入想增加的容量,因为我本身是30G写到35G是加了5G不是增加30G.(此处为了演示只增加5G)4、开启虚拟机查看虚拟机当前磁盘挂载情况fdisk -l5、选择磁盘fdisk /dev/sda...

2019-11-28 12:37:30 3619 1

编译好的azkaban web和exec.zip

编译好的azkaban的资料 直接可以下载用 给不知道怎么编译的人

2019-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除