键盘上的艺术家w-CSDN博客

原创 Flink---hbase-sink支持kerberos认证1

1.介绍项目中需要用到Flink往hbase写数据，但是默认的FlinkUpsertSinkFunction不支持kerberos认证，不支持就无法往hbase插入数据。在原有的HBaseUpsertSinkFunction的基础上修改增加kerberos认证，以下是修改好之后的代码，主要是修改了open方法，判断是否需要kerberos认证，如果需要认证则进行kerberos认证，如果不需要则不认证。jsonObject是kerberos的配置信息，keytab文件，kerberos账号这些信息

2020-06-16 14:17:25 2581 10

原创通过java 客户端操作k8s集群

1.在diea中新建一个maven工程然后倒入一下依赖 <dependency> <groupId>io.kubernetes</groupId> <artifactId>client-java</artifactId> <version>5.0...

2019-07-25 18:28:39 7832 22

原创 Datax 二次开发插件详细过程

目录1.背景2.需求3.开发步骤3.1去github上下载datax的代码3.2 本地解压，并导入idea3.3创建一个模块kafkareader3.4将任意一个模块的以下两个文件考入到resource目录下3.5进行修改plugin.json3.6修改pom.xml(复制其中一个文件的依赖和插件到pom.xml)3.7将其他模块下面的，这个文件夹复...

2019-06-05 16:09:12 22545 86

原创 yarn 杀死 application 命令

1.杀死 applicationyarn application -kill + application id2. 杀死jobhadoop job -kill + jobID

2019-04-30 11:39:53 30416 2

原创 hadoop MapReduce 源码 FileInputFormat 核心方法分析

public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); //获取文件的最小值,如果没有配置，就按默认值1 long minSize = Math.max(getFormatMinSplitSiz...

2019-03-26 15:14:05 237

原创超级详细倍增法实现 LCA

描述：倍增法用于很多算法当中，通过字面意思来理解就是翻倍增加嘛，这里着重讲使用倍增法在树中的应用求LCA；LCA是啥呢在一棵树当中 lca表示的是两个节点最近公共祖先，大家看这课树哈节点5 ，3的lca就是1，13和11的LCA就是6。节点8,12的lca就是8，那么我们如何通过被增来实现LCA呢。首先大家看下这个数组 grand[x][i] ,这个数组表示标号为x节

2017-06-05 21:29:41 23399 15

原创 Doris物化视图加布隆过滤器提升10倍查询速度

设备状态历史表，按天分区是Duplicate 模型，页面上有明细查询。但是查一个月数据翻页翻到17万页，每页10条数据，就会卡住不动。doris配置：测试环境 3BE ，32g内存，4线程。

2024-04-11 14:58:16 130

原创 3.二次开发Flink-coGroup算子支持迟到数据通过测输出流提取

coGroup算子开窗到时间关闭之后，迟到数据无法通过测输出流提取，intervalJoin算子提供了api，因为join算子底层就是coGroup算子，所以Join算子也不行。flink版本 v1.17.1。

2024-03-24 16:24:48 1147 1

原创记录一次架构优化处理性能从3千-＞3万

优化Kafka消费入Es，适配600台设备上报数据，吞吐量到达2万每秒。

2024-03-02 11:54:33 301 1

原创 1.Flink源码编译

链接：https://pan.baidu.com/s/1ZxYydR8rBfpLCcIdaOzxVg。1.1.4 scala版本（idea需要下载支持的scala插件）node 编译 flink-runtime-web需要。flile->open->选择源码所在目录。以上环境需要在操作系统下配置环境遍历；进入flink1.17.1目录输入cmd。最终效果如下，如有出现依赖应。点击带sources的模块。点击连接即可完成下载。

2023-08-22 19:11:17 1059

原创 DolphinScheduler任务调度源码剖析

DolphinScheduler任务调度源码剖析

2022-09-22 17:52:23 3719 1

原创 2.Flink源码-RPC详解

有道云笔记文档：Flink源码RPC.note链接：http://note.youdao.com/noteshare?id=11445a23afa11c693c13d7c0f7b17c16&sub=EDFCD3F0ECBE4C9A8C4F2F318AEDEA26

2021-09-05 10:27:25 247

原创 Flink-sql平台怎么做？

目录1.sql何执行?2.用户udf jar包如何被flink客户端加载3.flink jm 与tm如何加载udf jar1.sql何执行?模型管理平台：编写sql的平台开发一个公共执行flink-sql的模型，在main函数中初始化flink-tableEnv，调用模型管理平台的接口，获取用于flink job的sql，然后调用api执行sql。2.用户udf jar包如何被flink客户端加载在编写sql页面，上传udf包，...

2021-08-05 22:21:45 618

原创 Flink元空间内存溢出

一.问题现象flink运行一会就报心跳超时数据量不是很大版本 1.10taskmanager.err日志web界面日志报心跳超时二.问题定位1. 得到taskmanager的pid进入到tm的web界面查看运行在哪台机器上，并且得到端口号为40002在slave4上输入以下命令即可得到进程id为24047netstat -anp | grep 400022.进入到slave4节点上使用jstat -gc 进程id 1000 查看gc情况从下图看出

2021-06-11 09:21:40 1999 1

原创 spark-操作hbase 2种方式

一.spark操作hbase的方式方式1.通过hive外部表映射成hbase表，然后通过spark-sql可以查询hbase表。方式2.通过创建HadoopRdd也可以查询hbase表。二.方式区别方式1.通过spark操作hive的hbase映射表会产生全表扫描，无法通过rowkey来过滤数据。方式2.通过创建HadoopRdd的方式可以设置Startrow 和 endRow来设置数据的范围，这样可以先过滤一部分数据，不需要将所有hbase的数据读入spark再过...

2021-04-12 18:02:34 3296

原创 Flink-clickhousesink

1需求需求：准备将一些明细数据存入clickhouse中，方便事件的在线检索。开发一个Flink的clickhouseSink；flink版本 1.10 ，flink版本1.12 两个版本ClickHouse的java api也是基于jdbc的接口来做的。所以按照 JDBCSinkFunction 继承RichSinkFunction来实现。并且还需要创建一个JDBCOutputFormat来用于真正的输出数据到clickhouse2.代码JdbcSinkFunction 代码

2021-03-31 15:58:31 3031 1

原创 maxwell安装

Maxwell安装手册目录1 安装前置条件... 12 配置MySQL. 12.1 启用binlog. 12.2 创建maxwell账号并授权... 12.3 重启mysql 23 安装maxwell 23.1 解压maxwell安装包... 23.2 配置config.properties 23.3 配置kerberos认证... 23.4...

2020-12-11 14:36:22 1502

原创 java.io.IOException: The path component: ‘/data/run‘ in ‘/data/run/hdfs-sockets/dn‘ has permissions

hdfs报错 xception in secureMainjava.io.IOException: The path component: '/data/run' in '/data/run/hdfs-sockets/dn' has permissions 0777 uid 0 and gid 0. It is not protected because it is world-writable. This might help: 'chmod o-w /data/run'. For more in.

2020-11-10 10:30:44 902

原创 No route to host cdh6.3.0报错

No route to host防火墙没有关闭

2020-07-27 15:30:04 293

原创 spark-streaming 消费带有kerberos认证的kafka

1.代码package security.view.modelimport java.util.Propertiesimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.kafka.common.serialization.StringDeserialize

2020-07-10 16:45:18 2323

原创 flink打包注意事项

1.flink datastream api join hbase维度表报在打包的时候没有排除掉hbase依赖的hadoop-common2020-06-04 11:53:26,056 ERROR org.apache.flink.runtime.entrypoint.ClusterEntrypoint - Fatal error occurred in the cluster entrypoint.org.apache.flink.runtime.resourcema...

2020-06-05 13:30:46 1052

原创 roma镜像构建dockerFile笔记

FROM centos:7.6.1810#安装一些中文包。保重中文不乱码RUN yum -y install kde-l10n-Chinese telnet && \ yum clean all && \ localedef -c -f UTF-8 -i zh_CN zh_CN.utf8#设置时区ENV TZ=Asia/ShanghaiRUN ln -snf /usr/share/zo...

2020-05-21 16:31:53 360

原创 flink-sql 1.10 实时采集kafka中的数据写入mysql

flink-sql 从kafka读取数据写入mysql1.依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/PO.

2020-05-16 17:40:33 1264

原创 flink-sql 1.10 kafka 实时采集kafka中的数据写入到hbase

flink-sql从kafka读取数据写入mysql1.导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/

2020-05-16 17:38:28 1583

原创 flink介绍

1.初始Flink1.1flink是什么Flink是分布式、高性能的处理引擎，用于对无界和有界数据流进行有状态的计算。1.2为什么要选择flink流数据更加真实的反应了我们的生活方式，传统的数据架构都是基于有限数据集的。flink处理数据低延迟，高吞吐，来一条处理一条，并且支持精确一次性。...

2020-05-05 10:33:32 387

原创 Flink如何让task不共享插槽，算子拒绝合并Operator Chains

package com.lw.wcimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.con...

2020-05-05 09:24:10 2265

原创 k8s内存/cpu单位解析

1.k8s中内存表示法内存：MIcpu：核2.k8s cpu/内存数据样例以下数据通过访问heapster的api获取表示date_time时间点 node的 cpu内存使用情况3.k8s cpu、内存单位转正常单位cpu ： k8s的1000 = cpu的一个核如果一台服务器cpu是4核那么 k8s单位表示就是 4* 1000...

2020-02-27 14:35:45 9529

原创 zookeeper开启kerberos认证删除节点报错 Authentication is not valid : /hbase/splitWAL

1.描述在cdh集群中zookeeper开启了kerberos认证。然后通过zookeeper-client登陆zookeeper命令行操作，删除节点的时候报错删除命令：rmr /hbase报错：Authentication is not valid : /hbase/splitWAl说是没有权限删除/hbase/splitWAL这个节点。我们运行zookeeper-cli...

2019-10-12 11:14:06 11881 3

原创设计模式--单一职责原则

设计模式之七种原则单一设计原则 1单一设计原则介绍单一设计原则既一个类只负责一件事情。假如一个类负责两件A,B两件事情，假如A的需求需要变更，此时导致B功能也无法使用。这时候我们应将其分为两个类，这样就可以做到修改一个类的，不影响另外一个类。 1.2应用案例 package com.lw;/** * 创建一个类，该类有一个run方法。输入运行的车型打印车型...

2019-08-05 23:11:03 157

原创 Hbase-region迁移

HbaseRegin迁移1为什么要做region迁移在生产上遇到有比较大的Region都是运行在同一个RegionSever上，有些RegionSever上的Requests比较少，明显的出现读请求不均衡；这个时候我们可以手动的移动Region到负载比较低的RegionSever上面，让负载高的regionServer减轻负载，然负载低的regionService增加负载以达到hbase集...

2019-07-25 13:11:22 1861

原创 spark 解决提交任务是第三方依赖的问题

1解决我们自己模块的依赖在提交spark任务的时候用 –jars参数加上jar路径。路径用逗号隔开。2解决第三方依赖（保证每一个节点都有这个目录）步骤创建一个目录存放第三方依赖 [root@master spark]# mkdir myjars 2.将所有jar放入该目录 3.修改spark配置文件......

2019-04-12 15:41:56 1383 1

原创 Mapreduce 找博客共同好友案例

以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？输入：A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,D1...

2019-03-26 15:13:54 1048 1

原创采集kafka数据以orc格式写往hdfs

1.需求，从kafka采集数据然后以orc格式的文件写往hdfs。然后hdfs上的表以orc格式存储，然后绑定分区可以查询出数据。2.解决需求 1）使用flume 采集。写完hdfs。但是无法写orc格式。 2 ) logstach 可以写往hdfs。但是无法写orc格式。 3) datax 没有用过不知道能不能写orc3.自己写代码实现。写一个...

2019-03-26 14:24:07 2399 6

原创自定义flink es source

1、需求增量导入elasticsearch的数据到kafka。2、解决方式 1）自定义一个flume的essource 2）使用spark 的 es rdd 3）自定义flink的es source3、解决问题1）思路：es中的数据有一个sendTime。也就是发送到es的时间。我们就根据这个时间来增量采集数据...

2019-03-26 10:24:33 3359 18

原创 flume hive sink 用法详解

1.需求:有这样一个需求。要从kafka采集数据然后写到hdfs上。要直接写为orc格式。直接给orc的表来用。2.解决问题 1）我们首先想到用flume的 kafka source 和hdfs sink。但是事实是hdfs不能直接写为orc格式。除非自己再重新封装hdfs sink。（这样就要开发了）。下面是官网的hdfs sink(1.9版本) 说只允许那几种压缩和Sequ...

2019-03-22 14:11:41 3908

原创提交fink任务到yarn 报 kafka producer 初始化错误

1.报错截图当时没有截图2.报错信息org.apache.kafka.common.serialization.ByteArraySerializer的一个对象这个类不是 org.apache.kafka.common.serialization.Serializer的实例。3.解决错误1）错误原因这个错误是由于因为要使用kafkaSink 所以要导入下面这个依...

2019-03-22 13:55:16 364

原创面向对象详解！图片部分加载不了。可以留言。拿md文件

面向对象1.类和对象类：指的是一类事物。对象：是类的实体。就像数据库中的一条记录。转换到java中，就用一个对象来表示2.类的组成类由方法属性内部类代码块组成3.声明类的语法格式修饰符 class 类名{ 属性名方法名} 4.对象的创建通过new 关键字来调用其构造方法创建对象例如Person P = new Person();...

2018-08-10 16:30:05 831

原创 javascript-dom的常用方法

1.获得元素获得元素要等页面加载完成之后再获取，在页面加载的时候获取的话页面还没有加载完成，然后你获取元素的话，会获取不到。方法1.document.getElementById（“元素的id”）；通过元素的id来获取，返回的是你获取了那个元素对象的引用，这个是document类的方法。方法2.document.getElementsByTagName（“元素名称”）;获取一类元素，以数组的形式返...

2018-06-24 07:33:29 386

原创 js基础知识

1.html和js结合的两种方式 1》在head标签中或者 body标签中写 <script> </script> 2>将js代码写在其他地方。然后引入 <script src=""><script>2.js中定义变量用var 来定义变量，未赋值的标量的初始值为 undefined，为负值的变量可以赋值未所有类型。js中的变量赋...

2018-06-22 08:39:55 157

原创处理高度塌陷和父子元素外边距重叠的问题

1.高度塌陷不太了解高度塌陷的兄弟姐妹可以先看看这 https://blog.csdn.net/lw277232240/article/details/80722283 这里有讲解高度塌陷，也有解决方案2.子父元素外边距重叠。指的是。当子元素设置外边距的时候。父元素没有设置外边距。那么子元素设置的按个外边距。会使得两个元素一起移动。解决方法：隔开字符元素即可。也就是在要设置外边距的元素的前面添加...

2018-06-21 08:27:14 741

Flink1.11中文文档.pdf

k8s安装部署软件.zip

后缀数组详解

linux通过共享内存实现进程之间的通信

linux讲解通过共享内存实现进程间的通信

空空如也