lief2liu-CSDN博客

原创 spark structured streaming 教程03(窗口函数)

上一篇structured streaming的博客，我们用structured streaming 解析了推送到kafka的用户访问日志，这篇博客我们利用窗口函数，根据用户日志统计每分钟的pv，顺便写清楚一下窗口函数的原理1数据源上篇博客也写过了，推送到kafka的每条用户访问日志数据源是这样的{ "uid": "ef16382c8acce8ec", "timestamp": 1594983278059, "agent": "Mozilla/5.0 (Linux; Android 10; .

2020-08-04 23:59:38 1412

原创 docker教程04 （镜像的制作和分享）

我们要制作一个docke镜像并进行分享，这个镜像的功能很简单，用python打印hello world就行1制作镜像在上一篇博客已经写了如何创建一个容器，并且已经创建好了，我们用命令查看一下创建好的那个centos容器[root@dk ~]# docker ps -aCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS .

2020-07-28 22:08:34 187

原创 docker教程03 （基本概念）

docker的logo是一条鱼驮着很多集装箱，那条鱼可以理解成宿主操作系统，集装箱可以理解成docker的container(容器，后面会说这个概念)，而制作集装箱的模板则可以理解成image(镜像，后面也会说这个概念)1docker image (docker 镜像)概念集装箱的模板集成了集装箱的尺寸、颜色、形状等等所有数据，从而根据这些数据去制造一个个具体的集装箱，docker的image也是一样的道理，定义了container的系统的各种数据，从而根据这些数据去创建具体的containe.

2020-07-24 21:11:25 156

原创 docker教程02（docker的安装）

https://hub.docker.com/editions/community/docker-ce-desktop-windows/

2020-07-23 19:49:21 326

原创 docker教程01 （docker的作用）

docker这个单词翻译过来是码头工人的意思，但是看一个框架就像看一个人一样，不要看他叫什么，而应该看他做了什么他做了什么呢，他的logo暴露了一切，他的logo长这样：从logo我们可以看到，一条鱼（毕竟有尾巴）在搬运集装箱，对了，精髓就在集装箱，集装箱是20世纪最伟大的发明（不接受反驳就像好多php对世界上最好的语言不接受反驳一样），要明白docker改变了什么，就要看集装箱改变了什么假设货物要从a码头运到b码头没有集装箱前：码头工人将货物进行上船和下船，由于货物是零零散散的，所以要一件

2020-07-21 21:39:21 102

原创 spark structured streaming 教程02(对接kafka的json数据)

首先是准备kafka数据源{"uid":"ef16382c8acce8ec","code":"019","userId":"","lat":"0.0","lng":"0.0","timestamp":1594983278059,"param":"null","ip":"192.168.0.247","agent":"Mozilla/5.0 (Linux; Android 10; Redmi K30 5G Build/QKQ1.191222.002; wv) AppleWebKit/537.36 (KHTM

2020-07-20 20:17:39 1221

原创 spark structured streaming 教程01(上手实例)

废话不多说，先跟我跑第一个structured streaming程序，按照惯例这个程序功能还是wordcount，统计你输入的内容中每个单词出现的次数1配置好流数据的数据源我这边是用一台centos服务器，通过nc命令启动socket服务端来产生流数据的数据源的，具体操作如下：1.安装nc yum install nc.x86_642.在9999端口启动socket服务端 nc -lk 99993.输入数据[root@dg000 ~]# nc -lk 9999word hell.

2020-07-17 20:24:15 580

原创 spark graphx 教程 04 （join 算子）

spark graphx 04 （join 算子）为了演示graph的join算子，首先我们定义一个graphval users: RDD[(VertexId, (String, String))] = sc.parallelize(Array( (1L, ("a", "student")), (2L, ("b", "salesman")), (3L, ("c", "pro...

2019-05-27 19:59:56 639 1

原创 spark graphx 教程 03 （结构化算子）

spark graphx 03 （结构化算子）spark有如下4种结构化算子：reversesubgraphmaskgroupEdges为了演示以上4种结构化算子，我们首先初始化一个graph，代码如下val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((1L, ("a", "student"...

2019-05-27 19:48:33 463

原创 spark graphx 教程 02（基本代码）

现在我们从代码着手来快速体验一下spark graphx,首先graph类在spark中的路径是org.apache.spark.graphx，我们进去看看源代码graph基本属性我们在spark的graph类,看到了很多方法，但是属性只看到了如下3个基本属性：/** * An RDD containing the vertices and their associated att...

2019-05-14 20:15:58 680

原创 spark graphx 教程01（graphx基本概念）

spark graphx是什么GraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a new Graph abstraction: a directed multigra...

2019-05-13 20:04:23 581

原创 kafka教程3 (kafka基本概念)

总体概念关系图topictopic是生产者和消费者生产和消费的时候都必须制定的一个标识，一般用来标识某个业务一个topic包含多个partition，分布在不同的broker上，这里broker可以简单理解成一个broker技术kafka的一个逻辑节点创建topic的时候，可以指定topic的 partition 数量，以及副本数量，如下 /opt/cloudera/par...

2018-06-26 18:40:37 568 1

原创 log4j根据业务分出多个日志文件

很多时候，我们不同的业务日志要打印到不同的日志文件，比如我们一种日志是数据库同步到数据仓库日志（db2dw），一种日志是数据清洗日志(washdata) ，要分成2个不同日志文件进行记录看，具体的做法如下：1 在类里面确定好不同业务对应的日志名称，代码如下，这里就是刚刚说的不同的两种业务Logger logger = Logger.getLogger(&quot;**db2dw**...

2018-06-19 18:35:20 4153

原创 spark 教程4 (dataset 基础操作)

开发环境为idea，spark版本2.2，scala版本2.11，spark运行模式为本地运行1 配置好maven依赖，依赖如下，注意spark的依赖要选择对应scal版本的依赖 &amp;amp;lt;dependencies&amp;amp;gt; &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&a

2018-06-08 12:35:36 2893

原创 spark教程3 (cdh5.12 添加 spark2.2 服务)

1.下载安装包 ssh到任一台集群中的节点cd /opt/cloudera/csdwget http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.2.0.cloudera2.jarcd /opt/cloudera/parcel-repowget http://archive.cloudera.com/spark2/pa...

2018-06-06 17:56:43 1906

原创 kafka教程2 (scala 调用 kafka)

1创建项目，pom.xml的依赖如下 &amp;amp;amp;lt;dependencies&amp;amp;amp;gt; &amp;amp;amp;lt;dependency&amp;amp;amp;gt; &amp;amp;amp;lt;groupId&amp;amp;amp;gt;org.scala-lang&amp;amp;amp;lt;/group

2018-05-31 19:17:24 3985

原创 kafka教程1（cdh 5.12 安装 kafka）

在线下载激活进入安装包管理，找到kafka,点击下载，下载好后点击分配，然后点击激活激活后如下离线下载激活cd /opt/cloudera/csdwget http://archive.cloudera.com/csds/kafka/KAFKA-1.2.0.jarcd /opt/cloudera/parcel-repowget http://archive.clou...

2018-05-30 19:42:57 1480 1

原创 spark教程2 （代码本地和集群运行）

本地运行1.新建项目，maven引入如下依赖&amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.scala-lang&amp;lt;/groupId&amp;gt; &amp;lt;artifactId&amp;gt;scala-library&amp;lt;/artifac

2018-05-29 20:30:56 641

原创 spark教程1 (cdh5.12 安装自带spark)

1.添加spark服务，分配好history 和gateway 角色添加好并启动好spark后如下 2.配置yarn服务，给节点添加yarn的gateway角色，然后重启yarn 3.修改一下yarn的yarn.scheduler.maximum-allocation-mb参数和yarn.nodemanager.resource.memory-mb参数，默认是1g比较小，可以先设...

2018-05-26 18:15:10 2650

原创 hbase教程2（cdh hue访问）

1.找一个节点分配HBase Thrift Server角色该角色在节点启动后，可用jps在节点看到如下进程 2.在如下图的hue配置中，勾选hbase 3 在如下图的hue配置中，勾选hbase thrift server 4 重启hue,重启后进入hue的web界面，可以看见多出了hbase 5可以在hue界面方便的增删改查 ...

2018-05-25 19:12:39 2419

原创 hbase教程1 （基本概念）

1 数据层面ceilrdbms中，表由行和列组成，由行、列共同确定一个基本的存储单元hbase中，表由row key和colunm family组成，由row key和column共同确定的基本存储单元，就是ceil不同的是，ceil中不仅保存了数据，还保存了数据的版本versionrow key用来检索数据，具体检索方式后面会说最大为64kb的byte[]hbase...

2018-05-25 18:32:06 221

原创 hive教程3 (udf)

1.pom.xml添加以下依赖 &lt;dependency&gt; &lt;groupId&gt;org.apache.hadoop&lt;/groupId&gt; &lt;artifactId&gt;hadoop-common&lt;/artifactId&gt; &l

2018-05-21 18:39:56 323

原创 hive教程2 （maven打包hive jdbc驱动到squirrel）

之前看到网上大多数博客，要导入hive jdbc驱动，比如squirrel和kettle里面，都要手动导入好多包本文通过maven将hive jdbc驱动的所有包打成一个包，这样给squirrel和kettle配置hive jdbc驱动就方便多了，不用一个个的找1.本方法是基于之前写的一篇博客修改的，请先花1分钟了解下 https://blog.csdn.net/qq_408...

2018-05-16 20:06:06 1766 1

原创 hive教程1（groovy jdbc连接hive）

在idea上创建好maven项目，pom.xml这样配置&amp;amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;amp;gt;&amp;amp;lt;project xmlns=&amp;quot;http://maven.apache.org/POM/

2018-05-16 19:30:50 627

原创 kettle教程2（不同数据库表结构复制）

在上篇博客中 https://blog.csdn.net/qq_40887813/article/details/80284349 已经在转换中创建了db41（oracle）这个数据库连接本篇博客要降db41的reader表的表结构复制到mysql中和上篇博客一样，创建一个mysql数据连接mysql40,注意设置编码成utf 工具-向导-复制多表向导选...

2018-05-16 18:51:29 8896

原创 kettle教程1（转换）

不整虚的东西，跟着教程的步骤一步一步实践，从实践中学习kettle下载和运行（windows）http://jaist.dl.sourceforge.net/project/pentaho/Data%20Integration/ 本教程以下载pdi-ce-7.0.0.0-25.zip为例解压后如下双击spoon.bat进入kettle，成功进入后如下图 ...

2018-05-15 20:23:38 3223

lief2liu