自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 spring boot整合prometheus

prometheus 整合 springboot

2022-11-04 15:51:42 1452 1

原创 【Clickhouse系列一】Clickhouse的概述

clickhouse 简介一

2022-06-24 16:47:47 1059

原创 shell中curl一个带变量json格式的post请求

shell curl 带变量的json格式的post请求

2022-06-22 16:01:10 2933 1

原创 clickhouse数据去重函数介绍(count distinct)

> clickhouse提供了许多的去重函数,有精确去重的以及非精确去重的,下面介绍下两种非精确去重函数:uniq、uniqHLL12、uniqCombined精确去重函数:uniqExact、groupBitmap

2022-06-09 16:55:34 16292 2

原创 clickhouse如何实现实现分区排序 类似HIVE的 row_number() over(partition by order by)函数

关于clickhouse如何实现分区排序 类似HIVE的row_number() over() 函数 实现,及几个clickhouse函数的解析

2022-05-14 19:46:50 1951

原创 由于自己粗心,flink多并行度进行状态编程场景下出现null异常

问题描述由于自己粗心,在flink程序中设置了并行度后,对数据进行keyby 进行状态编程时候,keyby对象和状态对象不是同一个导致keyby后的对象划分的分区与状态对象不一致而取不到,导致null异常。分析:由于使用的全局变量,然后在代码中粗心没区分。源码跟进流程:HeapValueState.updatepublic void update(V value) { if (value == null) { this.clear(); } else {

2022-04-13 12:38:49 1808 3

原创 DolphinScheduler 2.x版本在本地idea开发调试的环境配置

本地idea开发调试2.x版本的dolphinscheduler

2022-02-18 16:55:06 2200 2

原创 日志可视化平台(附源码)

简单版的日志可视化平台

2022-01-27 17:57:09 1554 2

原创 本地idea 调试Hadoop的mr任务(Windows环境)以及对应安装包的下载

本地运行调试 mr作业

2021-12-08 20:16:38 2031

原创 flink实时写入数据到 clickhouse 报错Could not initialize class ru.yandex.clickhouse.ClickHouseUtil

问题介绍:项目在使用clickhouse jdbc 将flink数据实时写入clickhouse时候,报错:Caused by: java.lang.NoClassDefFoundError: Could not initialize class ru.yandex.clickhouse.ClickHouseUtil解决:1.直接拿报错信息百度,没查到解决方法,只能自己在去想想办法了,最好的办法就是源码刚进去2.直接断点跟进源码 发现ClickHouseUtil 类下导入的包不存在,如图所示

2021-12-04 21:06:40 3645

原创 flink水印没有触发窗口结束计算问题详解

先说下水印的基本概念,对后面理解有帮助1.watermark特点1.watermark并不是event的一个属性, 而是一条特殊的数据记录(只用来触发窗口结束,不参与数据计算)2.watermark 必须单调递增,以确保任务的事件时间时钟在向前推进,而不是在后退(就算延迟数据到来了,比目前的水印小,他也不会倒退了,而是直接不赋值,return掉)在org.apache.flink.streaming.runtime.operators.TimestampsAndWatermarksOperator.

2021-11-20 15:54:50 2449

原创 数据治理平台对比及atlas的安装和介绍

第1节 数据治理平台对比目前数据治理的平台 开源并且有详细文档的话就三个Apache Atlas(Hortonworks) Atlas于2015年7月开始在Hortonworks进行孵化。 Atlas 1.0于2018年6月发布。git地址:https://github.com/apache/atlas官网:http://atlas.apache.org/DataHub (LinkedIn) LinkedIn开源出来的,原来叫做WhereHows 。经过一段时间的发展,datahub于2020

2021-05-14 14:28:37 5257

原创 kafka思维导图

2021-05-14 13:45:06 161

原创 HTML+Nginx+ngx_kafka_module+Kafka

需求:使用Kafka做日志收集。需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)说明:1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流,记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题:tp_individual架构:HTML+Ngi

2021-01-19 23:17:52 513

原创 azkaban multiple-executor模式部署

1、下载源码git clone [email protected]:azkaban/azkaban.git或者wget https://github.com/azkaban/azkaban/archive/3.52.0.tar.gz 2、编译进入到下载的azkaban目录中进行编译:yum -y install git yum -y install gcc-c++# Build Azkaban./gradlew build(这一步需要等待的时间略久,需要提前安装git、gcc等软件,否则会

2020-12-21 00:19:25 433

原创 redis集群搭建redisCluster及java连接集群

一:搭建redis5.0集群 redis-cluster 三主三从规划:linux121,linux122,linux123,各安装一主一从(注意集群创建时候需要redis中没有数据)1.创建目录,拷贝redis,并将slave中配置文件的port该为6380cd /opt/lagou/software/make install PREFIX=/opt/lagou/servers/redis-cluster/mastercp -r /opt/lagou/servers/redis/bin/redi

2020-12-02 09:14:35 1192 2

原创 大数据的一些文章记录(持续更新)

滴滴基于 Flink 的实时数仓建设实践

2020-10-09 22:51:11 179

原创 zk报错:org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException

当通过java获取zk节点下的数据时候报错:org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException这是因为没有对数据进行序列化,这时我们可以自定义一个序列化的类(使用默认的SerializableSerializer()查看节点数据时,有可能会出现乱码),自定义序列化类,如下:public class ZkSerializer implements ZkSerializer { //序列化,数据--》byte[]

2020-09-21 15:52:27 1115

原创 impala三大组件

impala启动的时候就会吧hive的源数据信息抽取到catalog中,中间hive如果有跟新源数据,这时候impala是没有去获取的所以是无感知的。然后impala跟新源数据信息后会广播到其他impala中,所以其他impala知道,并且还会跟新到hive的源数据信息,所以hive也知道...

2020-09-21 15:33:23 630

原创 Impala配置负载均衡后启动出现cannot bind socket [0.0.0.0:25003]

1.HAProxy⽅案安装haproxyyum install haproxy -y配置⽂件vim /etc/haproxy/haproxy.cfg具体配置内容listen impalashellbind 0.0.0.0:25003#ha作为proxy所绑定的IP和端⼝mode tcp#以4层⽅式代理,重要option tcplogbalance roundrobin#调度算法 ‘leastconn’ 最少连接数分配,或者 ‘roundrobin’,轮询分server impalash

2020-09-21 15:29:59 1133 1

原创 现有收集到用户的页面点击行为日志数据 对用户的日志数据打上会话内序号

业务背景现有收集到用户的页面点击行为日志数据,数据格式如下:user_id click_timeA,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00A,2020-05-15 03:00:10A,2020-05-15 03:05:00B,2020-05-15 02:03:00B,2020-05-15 02:29:40B,2020-05-15 04:00:00会话概念:用户的一次会话含义是指用户进入系统开始到用户离

2020-09-13 18:45:24 136

原创 hadoop启动后没有DataNode节点启动

在学习impala时候配置了HDFS集群的短路读取后重启hdfs发现DataNode未启动,一直处于安全模式中查看DataNode日志java.io.IOException: The path component: '/var/lib/hadoop-hdfs' in '/var/lib/hadoop-hdfs/dn_socket' has permissions 0755 uid 993 and gid 991. It is not protected because it is owned by a

2020-09-07 23:10:01 925

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除