我要去学习了-CSDN博客

原创 spring boot整合prometheus

prometheus 整合 springboot

2022-11-04 15:51:42 1452 1

原创【Clickhouse系列一】Clickhouse的概述

clickhouse 简介一

2022-06-24 16:47:47 1059

原创 shell中curl一个带变量json格式的post请求

shell curl 带变量的json格式的post请求

2022-06-22 16:01:10 2933 1

原创 clickhouse数据去重函数介绍（count distinct）

> clickhouse提供了许多的去重函数，有精确去重的以及非精确去重的，下面介绍下两种非精确去重函数：uniq、uniqHLL12、uniqCombined精确去重函数：uniqExact、groupBitmap

2022-06-09 16:55:34 16292 2

原创 clickhouse如何实现实现分区排序类似HIVE的 row_number() over(partition by order by)函数

关于clickhouse如何实现分区排序类似HIVE的row_number() over() 函数实现，及几个clickhouse函数的解析

2022-05-14 19:46:50 1951

原创由于自己粗心，flink多并行度进行状态编程场景下出现null异常

问题描述由于自己粗心，在flink程序中设置了并行度后，对数据进行keyby 进行状态编程时候，keyby对象和状态对象不是同一个导致keyby后的对象划分的分区与状态对象不一致而取不到，导致null异常。分析：由于使用的全局变量，然后在代码中粗心没区分。源码跟进流程：HeapValueState.updatepublic void update(V value) { if (value == null) { this.clear(); } else {

2022-04-13 12:38:49 1808 3

原创 DolphinScheduler 2.x版本在本地idea开发调试的环境配置

本地idea开发调试2.x版本的dolphinscheduler

2022-02-18 16:55:06 2200 2

原创日志可视化平台（附源码）

简单版的日志可视化平台

2022-01-27 17:57:09 1554 2

原创本地idea 调试Hadoop的mr任务（Windows环境）以及对应安装包的下载

本地运行调试 mr作业

2021-12-08 20:16:38 2031

原创 flink实时写入数据到 clickhouse 报错Could not initialize class ru.yandex.clickhouse.ClickHouseUtil

问题介绍：项目在使用clickhouse jdbc 将flink数据实时写入clickhouse时候，报错：Caused by: java.lang.NoClassDefFoundError: Could not initialize class ru.yandex.clickhouse.ClickHouseUtil解决：1.直接拿报错信息百度，没查到解决方法，只能自己在去想想办法了，最好的办法就是源码刚进去2.直接断点跟进源码发现ClickHouseUtil 类下导入的包不存在，如图所示

2021-12-04 21:06:40 3645

原创 flink水印没有触发窗口结束计算问题详解

先说下水印的基本概念，对后面理解有帮助1.watermark特点1.watermark并不是event的一个属性，而是一条特殊的数据记录（只用来触发窗口结束，不参与数据计算）2.watermark 必须单调递增，以确保任务的事件时间时钟在向前推进，而不是在后退（就算延迟数据到来了，比目前的水印小，他也不会倒退了，而是直接不赋值，return掉）在org.apache.flink.streaming.runtime.operators.TimestampsAndWatermarksOperator.

2021-11-20 15:54:50 2449

原创数据治理平台对比及atlas的安装和介绍

第1节数据治理平台对比目前数据治理的平台开源并且有详细文档的话就三个Apache Atlas（Hortonworks） Atlas于2015年7月开始在Hortonworks进行孵化。 Atlas 1.0于2018年6月发布。git地址：https://github.com/apache/atlas官网：http://atlas.apache.org/DataHub (LinkedIn） LinkedIn开源出来的，原来叫做WhereHows 。经过一段时间的发展，datahub于2020

2021-05-14 14:28:37 5257

原创 kafka思维导图

2021-05-14 13:45:06 161

原创 HTML+Nginx+ngx_kafka_module+Kafka

需求：使用Kafka做日志收集。需要收集的信息：1、用户ID（user_id）2、时间（act_time）3、操作（action，可以是：点击：click，收藏：job_collect，投简历：cv_send，上传简历：cv_upload）4、对方企业编码（job_code）说明：1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流，记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题：tp_individual架构：HTML+Ngi

2021-01-19 23:17:52 513

原创 azkaban multiple-executor模式部署

1、下载源码git clone [email protected]:azkaban/azkaban.git或者wget https://github.com/azkaban/azkaban/archive/3.52.0.tar.gz 2、编译进入到下载的azkaban目录中进行编译：yum -y install git yum -y install gcc-c++# Build Azkaban./gradlew build（这一步需要等待的时间略久，需要提前安装git、gcc等软件，否则会

2020-12-21 00:19:25 433

原创 redis集群搭建redisCluster及java连接集群

一：搭建redis5.0集群 redis-cluster 三主三从规划：linux121，linux122，linux123，各安装一主一从(注意集群创建时候需要redis中没有数据)1.创建目录,拷贝redis，并将slave中配置文件的port该为6380cd /opt/lagou/software/make install PREFIX=/opt/lagou/servers/redis-cluster/mastercp -r /opt/lagou/servers/redis/bin/redi

2020-12-02 09:14:35 1192 2

原创大数据的一些文章记录(持续更新)

滴滴基于 Flink 的实时数仓建设实践

2020-10-09 22:51:11 179

原创 zk报错：org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException

当通过java获取zk节点下的数据时候报错：org.I0Itec.zkclient.exception.ZkMarshallingError: java.io.EOFException这是因为没有对数据进行序列化，这时我们可以自定义一个序列化的类（使用默认的SerializableSerializer()查看节点数据时，有可能会出现乱码），自定义序列化类，如下：public class ZkSerializer implements ZkSerializer { //序列化，数据--》byte[]

2020-09-21 15:52:27 1115

原创 impala三大组件

impala启动的时候就会吧hive的源数据信息抽取到catalog中，中间hive如果有跟新源数据，这时候impala是没有去获取的所以是无感知的。然后impala跟新源数据信息后会广播到其他impala中，所以其他impala知道，并且还会跟新到hive的源数据信息，所以hive也知道...

2020-09-21 15:33:23 630

原创 Impala配置负载均衡后启动出现cannot bind socket [0.0.0.0:25003]

1.HAProxy⽅案安装haproxyyum install haproxy -y配置⽂件vim /etc/haproxy/haproxy.cfg具体配置内容listen impalashellbind 0.0.0.0:25003#ha作为proxy所绑定的IP和端⼝mode tcp#以4层⽅式代理，重要option tcplogbalance roundrobin#调度算法 ‘leastconn’ 最少连接数分配，或者 ‘roundrobin’，轮询分server impalash

2020-09-21 15:29:59 1133 1

原创现有收集到用户的页面点击行为日志数据对用户的日志数据打上会话内序号

业务背景现有收集到用户的页面点击行为日志数据，数据格式如下：user_id click_timeA,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00A,2020-05-15 03:00:10A,2020-05-15 03:05:00B,2020-05-15 02:03:00B,2020-05-15 02:29:40B,2020-05-15 04:00:00会话概念：用户的一次会话含义是指用户进入系统开始到用户离

2020-09-13 18:45:24 136

原创 hadoop启动后没有DataNode节点启动

在学习impala时候配置了HDFS集群的短路读取后重启hdfs发现DataNode未启动,一直处于安全模式中查看DataNode日志java.io.IOException: The path component: '/var/lib/hadoop-hdfs' in '/var/lib/hadoop-hdfs/dn_socket' has permissions 0755 uid 993 and gid 991. It is not protected because it is owned by a

2020-09-07 23:10:01 925

huni的博客