自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 spark structured streaming 教程03(窗口函数)

上一篇structured streaming的博客,我们用structured streaming 解析了推送到kafka的用户访问日志,这篇博客我们利用窗口函数,根据用户日志统计每分钟的pv,顺便写清楚一下窗口函数的原理1数据源上篇博客也写过了,推送到kafka的每条用户访问日志数据源是这样的{ "uid": "ef16382c8acce8ec", "timestamp": 1594983278059, "agent": "Mozilla/5.0 (Linux; Android 10; .

2020-08-04 23:59:38 1412

原创 docker教程04 (镜像的制作和分享)

我们要制作一个docke镜像并进行分享,这个镜像的功能很简单,用python打印hello world就行1制作镜像在上一篇博客已经写了如何创建一个容器,并且已经创建好了,我们用命令查看一下创建好的那个centos容器[root@dk ~]# docker ps -aCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS .

2020-07-28 22:08:34 187

原创 docker教程03 (基本概念)

docker的logo是一条鱼驮着很多集装箱,那条鱼可以理解成宿主操作系统,集装箱可以理解成docker的container(容器,后面会说这个概念),而制作集装箱的模板则可以理解成image(镜像,后面也会说这个概念)1docker image (docker 镜像)概念集装箱的模板集成了集装箱的尺寸、颜色、形状等等所有数据,从而根据这些数据去制造一个个具体的集装箱,docker的image也是一样的道理,定义了container的系统的各种数据,从而根据这些数据去创建具体的containe.

2020-07-24 21:11:25 156

原创 docker教程02(docker的安装)

https://hub.docker.com/editions/community/docker-ce-desktop-windows/

2020-07-23 19:49:21 326

原创 docker教程01 (docker的作用)

docker这个单词翻译过来是码头工人的意思,但是看一个框架就像看一个人一样,不要看他叫什么,而应该看他做了什么他做了什么呢,他的logo暴露了一切,他的logo长这样:从logo我们可以看到,一条鱼(毕竟有尾巴)在搬运集装箱,对了,精髓就在集装箱,集装箱是20世纪最伟大的发明(不接受反驳就像好多php对世界上最好的语言不接受反驳一样),要明白docker改变了 什么,就要看集装箱改变了什么假设货物要从a码头运到b码头没有集装箱前:码头工人将货物进行上船和下船,由于货物是零零散散的,所以要一件

2020-07-21 21:39:21 102

原创 spark structured streaming 教程02(对接kafka的json数据)

首先是准备kafka数据源{"uid":"ef16382c8acce8ec","code":"019","userId":"","lat":"0.0","lng":"0.0","timestamp":1594983278059,"param":"null","ip":"192.168.0.247","agent":"Mozilla/5.0 (Linux; Android 10; Redmi K30 5G Build/QKQ1.191222.002; wv) AppleWebKit/537.36 (KHTM

2020-07-20 20:17:39 1221

原创 spark structured streaming 教程01(上手实例)

废话不多说,先跟我跑第一个structured streaming程序, 按照惯例这个程序功能还是wordcount,统计你输入的内容中每个单词出现的次数1配置好流数据的数据源我这边是用一台centos服务器,通过nc命令启动socket服务端来产生流数据的数据源的,具体操作如下:1.安装nc yum install nc.x86_642.在9999端口启动socket服务端 nc -lk 99993.输入数据[root@dg000 ~]# nc -lk 9999word hell.

2020-07-17 20:24:15 580

原创 spark graphx 教程 04 (join 算子)

spark graphx 04 (join 算子)为了演示graph的join算子,首先我们定义一个graphval users: RDD[(VertexId, (String, String))] = sc.parallelize(Array( (1L, ("a", "student")), (2L, ("b", "salesman")), (3L, ("c", "pro...

2019-05-27 19:59:56 639 1

原创 spark graphx 教程 03 (结构化算子)

spark graphx 03 (结构化算子)spark有如下4种结构化算子:reversesubgraphmaskgroupEdges为了演示以上4种结构化算子,我们首先初始化一个graph,代码如下val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((1L, ("a", "student"...

2019-05-27 19:48:33 463

原创 spark graphx 教程 02(基本代码)

现在我们从代码着手来快速体验一下spark graphx,首先graph类在spark中的路径是org.apache.spark.graphx,我们进去看看源代码graph基本属性我们在spark的graph类,看到了很多方法,但是属性只看到了如下3个基本属性:/** * An RDD containing the vertices and their associated att...

2019-05-14 20:15:58 680

原创 spark graphx 教程01(graphx基本概念)

spark graphx是什么GraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a new Graph abstraction: a directed multigra...

2019-05-13 20:04:23 581

原创 kafka教程3 (kafka基本概念)

总体概念关系图topictopic是生产者和消费者生产和消费的时候都必须制定的一个标识,一般用来标识某个业务一个topic包含多个partition,分布在不同的broker上,这里broker可以简单理解成一个broker技术kafka的一个逻辑节点创建topic的时候,可以指定topic的 partition 数量,以及副本数量,如下 /opt/cloudera/par...

2018-06-26 18:40:37 568 1

原创 log4j根据业务分出多个日志文件

很多时候,我们不同的业务日志要打印到不同的日志文件,比如我们一种日志是 数据库同步到数据仓库日志(db2dw) ,一种日志是 数据清洗日志(washdata) ,要分成2个不同日志文件进行记录看,具体的做法如下:1 在类里面确定好不同业务对应的日志名称,代码如下,这里就是刚刚说的不同的两种业务Logger logger = Logger.getLogger("**db2dw**...

2018-06-19 18:35:20 4153

原创 spark 教程4 (dataset 基础操作)

开发环境为idea,spark版本2.2,scala版本2.11,spark运行模式为本地运行1 配置好maven依赖,依赖如下,注意spark的依赖要选择对应scal版本的依赖 <dependencies> <dependency> <groupId&a

2018-06-08 12:35:36 2893

原创 spark教程3 (cdh5.12 添加 spark2.2 服务)

1.下载安装包 ssh到任一台集群中的节点cd /opt/cloudera/csdwget http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.2.0.cloudera2.jarcd /opt/cloudera/parcel-repowget http://archive.cloudera.com/spark2/pa...

2018-06-06 17:56:43 1906

原创 kafka教程2 (scala 调用 kafka)

1创建项目,pom.xml的依赖如下 <dependencies> <dependency> <groupId>org.scala-lang</group

2018-05-31 19:17:24 3985

原创 kafka教程1(cdh 5.12 安装 kafka)

在线下载激活进入安装包管理,找到kafka,点击下载,下载好后点击分配,然后点击激活 激活后如下 离线下载激活cd /opt/cloudera/csdwget http://archive.cloudera.com/csds/kafka/KAFKA-1.2.0.jarcd /opt/cloudera/parcel-repowget http://archive.clou...

2018-05-30 19:42:57 1480 1

原创 spark教程2 (代码本地和集群运行)

本地运行1.新建项目,maven引入如下依赖<dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifac

2018-05-29 20:30:56 641

原创 spark教程1 (cdh5.12 安装自带spark)

1.添加spark服务,分配好history 和gateway 角色 添加好并启动好spark后如下 2.配置yarn服务,给节点添加yarn的gateway角色,然后重启yarn 3.修改一下yarn的yarn.scheduler.maximum-allocation-mb参数和yarn.nodemanager.resource.memory-mb参数,默认是1g比较小,可以先设...

2018-05-26 18:15:10 2650

原创 hbase教程2(cdh hue访问)

1.找一个节点分配HBase Thrift Server角色 该角色在节点启动后,可用jps在节点看到如下进程 2.在如下图的hue配置中,勾选hbase 3 在如下图的hue配置中,勾选hbase thrift server 4 重启hue,重启后进入hue的web界面,可以看见多出了hbase 5可以在hue界面方便的增删改查 ...

2018-05-25 19:12:39 2419

原创 hbase教程1 (基本概念)

1 数据层面ceilrdbms中,表由行和列组成,由行、列共同确定一个基本的存储单元hbase中,表由row key和colunm family组成,由row key和column共同确定的基本存储单元,就是ceil不同的是,ceil中不仅保存了数据,还保存了数据的版本versionrow key用来检索数据,具体检索方式后面会说最大为64kb的byte[]hbase...

2018-05-25 18:32:06 221

原创 hive教程3 (udf)

1.pom.xml添加以下依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> &l

2018-05-21 18:39:56 323

原创 hive教程2 (maven打包hive jdbc驱动到squirrel)

之前看到网上大多数博客,要导入hive jdbc驱动,比如squirrel和kettle里面,都要手动导入好多包 本文通过maven将hive jdbc驱动的所有包打成一个包,这样给squirrel和kettle配置hive jdbc驱动就方便多了,不用一个个的找1.本方法是基于之前写的一篇博客修改的,请先花1分钟了解下 https://blog.csdn.net/qq_408...

2018-05-16 20:06:06 1766 1

原创 hive教程1(groovy jdbc连接hive)

在idea上创建好maven项目,pom.xml这样配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/

2018-05-16 19:30:50 627

原创 kettle教程2(不同数据库表结构复制)

在上篇博客中 https://blog.csdn.net/qq_40887813/article/details/80284349 已经在转换中创建了db41(oracle)这个数据库连接 本篇博客要降db41的reader表的表结构复制到mysql中和上篇博客一样,创建一个mysql数据连接mysql40,注意设置编码成utf 工具-向导-复制多表向导 选...

2018-05-16 18:51:29 8896

原创 kettle教程1(转换)

不整虚的东西,跟着教程的步骤一步一步实践,从实践中学习kettle下载和运行(windows)http://jaist.dl.sourceforge.net/project/pentaho/Data%20Integration/ 本教程以下载pdi-ce-7.0.0.0-25.zip为例解压后如下 双击spoon.bat进入kettle,成功进入后如下图 ...

2018-05-15 20:23:38 3223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除