自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(223)
  • 资源 (5)
  • 收藏
  • 关注

原创 Flink---hbase-sink支持kerberos认证1

1.介绍项目中需要用到Flink往hbase写数据,但是默认的FlinkUpsertSinkFunction不支持kerberos认证,不支持就无法往hbase插入数据。在原有的HBaseUpsertSinkFunction的基础上修改 增加kerberos认证,以下是修改好之后的代码,主要是修改了open方法,判断是否需要kerberos认证,如果需要认证则进行kerberos认证,如果不需要则不认证。jsonObject是kerberos的配置信息,keytab文件,kerberos账号这些信息

2020-06-16 14:17:25 2581 10

原创 通过java 客户端 操作k8s集群

1.在diea中新建一个maven工程然后倒入一下依赖 <dependency> <groupId>io.kubernetes</groupId> <artifactId>client-java</artifactId> <version>5.0...

2019-07-25 18:28:39 7832 22

原创 Datax 二次开发插件详细过程

目录1.背景2.需求3.开发步骤3.1去github上下载datax的代码3.2 本地解压,并导入idea3.3创建一个模块kafkareader3.4将任意一个模块的以下两个文件考入到resource目录下3.5进行修改plugin.json3.6修改pom.xml(复制其中一个文件的依赖和插件到pom.xml)3.7将其他模块下面的,这个文件夹复...

2019-06-05 16:09:12 22545 86

原创 yarn 杀死 application 命令

1.杀死 applicationyarn application -kill + application id2. 杀死jobhadoop job -kill + jobID

2019-04-30 11:39:53 30416 2

原创 hadoop MapReduce 源码 FileInputFormat 核心方法分析

public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); //获取文件的最小值,如果没有配置,就按默认值1 long minSize = Math.max(getFormatMinSplitSiz...

2019-03-26 15:14:05 237

原创 超级详细 倍增法 实现 LCA

描述:倍增法用于很多算法当中,通过字面意思来理解就是翻倍增加嘛,这里着重讲使用倍增法在树中的应用求LCA;LCA是啥呢  在一棵树当中 lca表示的是两个节点最近公共祖先, 大家看这课树哈节点5 ,3的lca就是1,13和11的LCA就是6。节点8,12的lca就是8,那么我们如何通过被增来实现LCA呢。首先大家看下这个数组 grand[x][i] ,这个数组表示标号为x节

2017-06-05 21:29:41 23399 15

原创 Doris物化视图加布隆过滤器提升10倍查询速度

设备状态历史表,按天分区是Duplicate 模型,页面上有明细查询。但是查一个月数据翻页翻到17万页,每页10条数据,就会卡住不动。doris配置:测试环境 3BE ,32g内存,4线程。

2024-04-11 14:58:16 130

原创 3.二次开发Flink-coGroup算子支持迟到数据通过测输出流提取

coGroup算子开窗到时间关闭之后,迟到数据无法通过测输出流提取,intervalJoin算子提供了api,因为join算子底层就是coGroup算子,所以Join算子也不行。flink版本 v1.17.1。

2024-03-24 16:24:48 1147 1

原创 记录一次架构优化处理性能从3千->3万

优化Kafka消费入Es,适配600台设备上报数据,吞吐量到达2万每秒。

2024-03-02 11:54:33 301 1

原创 1.Flink源码编译

链接:https://pan.baidu.com/s/1ZxYydR8rBfpLCcIdaOzxVg。1.1.4 scala版本(idea需要下载支持的scala插件)node 编译 flink-runtime-web需要。flile->open->选择源码所在目录。以上环境需要在操作系统下配置环境遍历;进入flink1.17.1目录输入cmd。最终效果如下,如有出现依赖应。点击带sources的模块。点击连接即可完成下载。

2023-08-22 19:11:17 1059

原创 DolphinScheduler任务调度源码剖析

DolphinScheduler任务调度源码剖析

2022-09-22 17:52:23 3719 1

原创 2.Flink源码-RPC详解

有道云笔记文档:Flink源码RPC.note链接:http://note.youdao.com/noteshare?id=11445a23afa11c693c13d7c0f7b17c16&sub=EDFCD3F0ECBE4C9A8C4F2F318AEDEA26

2021-09-05 10:27:25 247

原创 Flink-sql平台怎么做?

目录1.sql何执行?2.用户udf jar包如何被flink客户端加载3.flink jm 与tm如何加载udf jar1.sql何执行?模型管理平台:编写sql的平台开发一个公共执行flink-sql的模型,在main函数中初始化flink-tableEnv,调用模型管理平台的接口,获取用于flink job的sql,然后调用api执行sql。2.用户udf jar包如何被flink客户端加载在编写sql页面,上传udf包,...

2021-08-05 22:21:45 618

原创 Flink元空间内存溢出

一.问题现象flink运行一会就报心跳超时 数据量不是很大版本 1.10taskmanager.err日志web界面日志报心跳超时二.问题定位1. 得到taskmanager的pid进入到tm的web界面查看运行在哪台机器上,并且得到端口号为40002在slave4上输入以下命令即可得到进程id为24047netstat -anp | grep 400022.进入到slave4节点上使用jstat -gc 进程id 1000 查看gc情况从下图看出

2021-06-11 09:21:40 1999 1

原创 spark-操作hbase 2种方式

一.spark操作hbase的方式 方式1.通过hive外部表映射成hbase表,然后通过spark-sql可以查询hbase表。 方式2.通过创建HadoopRdd也可以查询hbase表。二.方式区别 方式1.通过spark操作hive的hbase映射表 会产生全表扫描,无法通过rowkey来过滤数据。 方式2.通过创建HadoopRdd的方式可以设置Startrow 和 endRow来设置数据的范围,这样可以先过滤一部分数据,不需要将所有hbase的数据读入spark再过...

2021-04-12 18:02:34 3296

原创 Flink-clickhousesink

1需求需求:准备将一些明细数据存入clickhouse中,方便事件的在线检索。开发一个Flink的clickhouseSink;flink版本 1.10 ,flink版本1.12 两个版本ClickHouse的java api也是基于jdbc的接口来做的。所以按照 JDBCSinkFunction 继承RichSinkFunction来实现。并且还需要创建一个JDBCOutputFormat来用于真正的输出数据到clickhouse2.代码JdbcSinkFunction 代码

2021-03-31 15:58:31 3031 1

原创 maxwell安装

Maxwell安装手册目录1 安装前置条件... 12 配置MySQL. 12.1 启用binlog. 12.2 创建maxwell账号并授权... 12.3 重启mysql 23 安装maxwell 23.1 解压maxwell安装包... 23.2 配置config.properties 23.3 配置kerberos认证... 23.4...

2020-12-11 14:36:22 1502

原创 java.io.IOException: The path component: ‘/data/run‘ in ‘/data/run/hdfs-sockets/dn‘ has permissions

hdfs报错 xception in secureMainjava.io.IOException: The path component: '/data/run' in '/data/run/hdfs-sockets/dn' has permissions 0777 uid 0 and gid 0. It is not protected because it is world-writable. This might help: 'chmod o-w /data/run'. For more in.

2020-11-10 10:30:44 902

原创 No route to host cdh6.3.0报错

No route to host防火墙没有关闭

2020-07-27 15:30:04 293

原创 spark-streaming 消费带有kerberos认证的kafka

1.代码package security.view.modelimport java.util.Propertiesimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.kafka.common.serialization.StringDeserialize

2020-07-10 16:45:18 2323

原创 flink打包注意事项

1.flink datastream api join hbase维度表报在打包的时候没有排除掉hbase依赖的hadoop-common2020-06-04 11:53:26,056 ERROR org.apache.flink.runtime.entrypoint.ClusterEntrypoint - Fatal error occurred in the cluster entrypoint.org.apache.flink.runtime.resourcema...

2020-06-05 13:30:46 1052

原创 roma镜像构建dockerFile笔记

FROM centos:7.6.1810#安装一些中文包。保重中文不乱码RUN yum -y install kde-l10n-Chinese telnet && \ yum clean all && \ localedef -c -f UTF-8 -i zh_CN zh_CN.utf8#设置时区ENV TZ=Asia/ShanghaiRUN ln -snf /usr/share/zo...

2020-05-21 16:31:53 360

原创 flink-sql 1.10 实时采集kafka中的数据写入mysql

flink-sql 从kafka读取数据写入mysql1.依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/PO.

2020-05-16 17:40:33 1264

原创 flink-sql 1.10 kafka 实时采集kafka中的数据写入到hbase

flink-sql从kafka读取数据写入mysql1.导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/

2020-05-16 17:38:28 1583

原创 flink介绍

1.初始Flink1.1flink是什么Flink是分布式、高性能的处理引擎,用于对无界和有界数据流进行有状态的计算。1.2为什么要选择flink流数据更加真实的反应了我们的生活方式,传统的数据架构都是基于有限数据集的。flink处理数据低延迟,高吞吐,来一条处理一条,并且支持精确一次性。...

2020-05-05 10:33:32 387

原创 Flink如何让task不共享插槽,算子拒绝合并Operator Chains

package com.lw.wcimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.con...

2020-05-05 09:24:10 2265

原创 k8s内存/cpu单位解析

1.k8s中内存表示法内存:MIcpu:核2.k8s cpu/内存数据样例以下 数据通过访问heapster的api获取表示date_time时间点 node的 cpu内存使用情况3.k8s cpu、内存单位转正常单位cpu : k8s的1000 = cpu的一个核 如果一台服务器cpu是4核 那么 k8s单位表示就是 4* 1000...

2020-02-27 14:35:45 9529

原创 zookeeper开启kerberos认证删除节点报错 Authentication is not valid : /hbase/splitWAL

1.描述在cdh集群中zookeeper开启了kerberos认证。然后通过zookeeper-client登陆zookeeper命令行操作,删除节点的时候报错删除命令:rmr /hbase报错:Authentication is not valid : /hbase/splitWAl说是 没有权限删除/hbase/splitWAL这个节点。我们运行zookeeper-cli...

2019-10-12 11:14:06 11881 3

原创 设计模式--单一职责原则

设计模式之七种原则单一设计原则 1单一设计原则介绍 单一设计原则既一个类只负责一件事情。假如一个类负责两件A,B两件事情,假如A的需求需要变更,此时导致B功能也无法使用。这时候我们应将其分为两个类,这样就可以做到修改一个类的,不影响另外一个类。 1.2应用案例 package com.lw;/** * 创建一个类,该类有一个run方法。输入运行的车型打印 车型...

2019-08-05 23:11:03 157

原创 Hbase-region迁移

HbaseRegin迁移1为什么要做region迁移在生产上遇到有比较大的Region都是运行在同一个RegionSever上,有些RegionSever上的Requests比较少,明显的出现读请求不均衡;这个时候我们可以手动的移动Region到负载比较低的RegionSever上面,让负载高的regionServer减轻负载,然负载低的regionService增加负载以达到hbase集...

2019-07-25 13:11:22 1861

原创 spark 解决提交任务是 第三方依赖的问题

1解决我们自己模块的依赖在提交spark任务的时候用 –jars参数加上jar路径。路径用逗号隔开。2解决第三方依赖(保证每一个节点都有这个目录)步骤创建一个目录存放第三方依赖 [root@master spark]# mkdir myjars 2.将所有jar放入该目录 3.修改spark配置文件......

2019-04-12 15:41:56 1383 1

原创 Mapreduce 找博客共同好友案例

以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?输入:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,D1...

2019-03-26 15:13:54 1048 1

原创 采集kafka数据以orc格式写往hdfs

1.需求,从kafka采集数据然后以orc格式的文件写往hdfs。然后hdfs上的表以orc格式存储,然后绑定分区可以查询出数据。2.解决需求 1) 使用flume 采集。写完hdfs。但是无法写orc格式。 2 ) logstach 可以写往hdfs。但是无法写orc格式。 3) datax 没有用过 不知道能不能写orc3.自己写代码实现。写一个...

2019-03-26 14:24:07 2399 6

原创 自定义flink es source

1、需求 增量导入elasticsearch的数据到kafka。2、 解决方式 1) 自定义一个flume的essource 2)使用spark 的 es rdd 3) 自定义flink的es source3、解决问题1) 思路:es中的数据有一个sendTime。也就是发送到es的时间。我们就根据这个时间来增量采集数据...

2019-03-26 10:24:33 3359 18

原创 flume hive sink 用法详解

1.需求:有这样一个需求。要从kafka采集数据然后写到hdfs上。要直接写为orc格式。直接给orc的表来用。2.解决问题 1) 我们首先想到用flume的 kafka source 和hdfs sink。但是事实是hdfs不能直接写为orc格式。除非自己再重新封装hdfs sink。 (这样就要开发了)。下面是官网的hdfs sink(1.9版本) 说只允许那几种压缩和Sequ...

2019-03-22 14:11:41 3908

原创 提交fink任务到yarn 报 kafka producer 初始化错误

1.报错截图当时没有截图2.报错信息org.apache.kafka.common.serialization.ByteArraySerializer的一个对象 这个类不是 org.apache.kafka.common.serialization.Serializer的实例。3.解决错误1) 错误原因这个错误是由于因为要使用kafkaSink 所以要导入下面这个依...

2019-03-22 13:55:16 364

原创 面向对象详解!图片部分加载不了。可以留言。拿md文件

面向对象1.类和对象类:指的是一类事物。对象:是类的实体。就像数据库中的一条记录。转换到java中,就用一个对象来表示2.类的组成类由方法 属性 内部类 代码块组成3.声明类的语法格式修饰符 class 类名{​ 属性名​ 方法名} 4.对象的创建通过new 关键字来调用其构造方法创建对象例如Person P = new Person();...

2018-08-10 16:30:05 831

原创 javascript-dom的常用方法

1.获得元素获得元素要等页面加载完成之后再获取,在页面加载的时候获取的话页面还没有加载完成,然后你获取元素的话,会获取不到。方法1.document.getElementById(“元素的id”);通过元素的id来获取,返回的是你获取了那个元素对象的引用,这个是document类的方法。方法2.document.getElementsByTagName(“元素名称”);获取一类元素,以数组的形式返...

2018-06-24 07:33:29 386

原创 js基础知识

1.html和js结合的两种方式    1》在head标签中 或者 body标签中 写 &lt;script&gt; &lt;/script&gt;    2&gt;将js代码写在其他地方。然后引入 &lt;script src=""&gt;&lt;script&gt;2.js中定义变量用var 来定义变量,未赋值的标量的初始值为 undefined,为负值的变量可以赋值未所有类型。js中的变量赋...

2018-06-22 08:39:55 157

原创 处理高度塌陷和父子元素外边距重叠的问题

1.高度塌陷不太了解高度塌陷的兄弟姐妹可以先看看这  https://blog.csdn.net/lw277232240/article/details/80722283 这里有讲解高度塌陷,也有解决方案2.子父元素外边距重叠。指的是。当子元素设置外边距的时候。父元素没有设置外边距。那么子元素设置的按个外边距。会使得两个元素一起移动。解决方法:隔开字符元素即可。也就是在要设置外边距的元素的前面添加...

2018-06-21 08:27:14 741

Flink1.11中文文档.pdf

flink1.11 中文文档,

2020-07-20

k8s安装部署软件.zip

手把手一步一步从0开始搭建k8s集群,里面包含文档和k8srpm安装包,docker安装包。

2019-07-19

后缀数组详解

非常详细的后缀数组讲解~~~既看既懂

2017-08-26

linux通过共享内存实现进程之间的通信

自己做的一个ppt通过共享内存的方式实现进程间的通信

2017-05-23

linux讲解通过共享内存实现进程间的通信

讲解了下linux共享内存函数

2017-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除