自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dian张

在路上。。。

  • 博客(171)
  • 收藏
  • 关注

原创 连续登录天数sql

【代码】连续登录天数sql。

2023-10-26 15:36:33 117

原创 seatunnel win idea 本地调试

调试seatunnwl FakeSource,LocalFile。

2023-09-08 16:54:49 992 1

原创 flink-1.17 log4j2 log推送

flink-conf.yml曾如下配置获取 yarn 的ContainerId。log4j.propertites增加如下配置。启动命令传入job_name。

2023-08-22 09:12:10 198

原创 fastjson2 JSONWriter.Feature介绍

JSONWriter.Feature介绍JSONWriter.Feature介绍FieldBased基于字段反序列化,如果不配置,会默认基于public的field和getter方法序列化。配置后,会基于非static的field(包括private)做反序列化。IgnoreNoneSerializable序列化忽略非Serializable类型的字段BeanToArray将对象序列为[101,“XX”]这样的数组格式,这样的格式会更小WriteNulls序列

2023-06-30 16:01:04 2007

原创 识别jar是否含有某个类

识别某个目录下面的所有jar。

2023-05-18 14:47:32 200

原创 flink sql 下推 类

【代码】flink sql 下推 类。

2023-04-26 10:51:04 196

原创 hive 常用语句

【代码】hive 常用语句。

2023-01-11 20:25:57 119

原创 redis 数据结构

简单动态字符串 双向链表、压缩链表 压缩链表、哈希表 压缩链表、整数数组 压缩链表、跳表。跳表 双向链表 压缩链表 哈希表 整数数组。数据类型和底层结构的对应关系。底层实现的时间复杂度。

2023-01-11 20:23:36 63

原创 Redis数据结构

Redis

2022-11-23 16:13:13 200

原创 SR报错问题记录

sr版本2.1.10

2022-10-19 10:20:20 567

原创 SR动态分区清除数据

sr

2022-09-26 11:06:42 280

原创 将一天数据分割成N个连续片段

将一天数据分割成N个连续片段

2022-09-19 09:21:51 214

原创 flink sql hbase kerberos 问题记录

当flink-conf.yaml配置了kerberos但是还遇到了无法连接问题,从下面代码可以看出是因为没有加载配置文件导致16020 failed on local exception: org.apache.hadoop.hbase.exceptions.ConnectionClosedException: Connection closed at org.apache.hadoop.hbase.ipc.IPCUtil.wrapException(IPCUtil.java:206) at org.

2022-05-23 17:01:25 778

原创 win系统编译 streamx 问题

操作系统版本;win11jdk版本:JDK 1.8.0_302scala版本:2.11.12代码分支:1.2.2-releasemaven版本:3.8编译命令:mvn clean install -DskipTests -Denv=prod错误详情:[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:4.3.0:compile (install-scala) on project streamx-

2022-04-14 09:57:10 704

原创 ernie2.0 训练代码

1.输入内容映射为ID-基于单个字进行映射paddlenlp.transformers.tokenizer_utils.PretrainedTokenizer.convert_tokens_to_ids def convert_tokens_to_ids(self, tokens): if tokens is None: return None if isinstance(tokens, str): if token

2022-03-11 16:46:43 430

原创 情感分析处理-学习paddle

情感分析分为三个经典任务句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(Opinion Target Extraction)

2022-03-01 15:30:14 425

原创 flink轮询写入local节点

1.通过分布式表解析数据库名字、local表名、对应集群名称SELECT engine_full FROM system.tables WHERE database = ? AND name = ? String cluster = matcher.group("cluster"); String database = matcher.group("database"); String table ..

2022-02-26 11:11:49 1000

原创 OLAP对比

OLAP产品 Kylin Druid Clickhouse Impala+Kudu Presto+HDFS ElasticSearch+Hbase 支持数据规模 百TB~数十PB(几十亿~百亿) 百TB~PB 百TB~PB(几亿~几十亿) TB~PB ...

2022-02-25 15:59:57 976

原创 CK集群搭建

安装包下载wget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-server-21.4.3.21-2.noarch.rpmwget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-common-static-21.4.3.21-2.x86_64.rpmwget https://repo.yandex.ru/clickhouse/rpm/stab

2022-02-25 15:28:39 1746

原创 clickhouse学习

nternal_replication:是否只写入所有replica中的一台true:代表了只写入shard内的一台,与ZooKeeper配合进行复制;false:代表了写入shard内所有的replica,与分布式表配合进行复制。遇到的问题点1nternal_replication:TRUECK集群,建立本地表,engine=MergeTree(),基于本地表建立分布式表,通过flink将数据插入到节点A的本地表,通过分布式表查询数据,只有节点A可以查得到,其余节点都无法进行查询,将本地表的e

2022-02-22 19:26:15 533

原创 conda 安装 pytorch

1.修改pip以及conda为国内源pip.ini[global]index-url=https://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun.com.condarcchannels: - https://mirrors.aliyun.com/anaconda/cloud/ursky - https://mirrors.aliyun.com/anaconda/cloud/stackless

2021-12-06 13:51:20 1499

原创 flink sql 复杂json解析

{ "messageHeader" : { "messageID" : 2, "responseFlag" : -2 }, "messageBody" : { "time" : "2021-09-09T12:45:48", "vehicleBase" : { "id" : null, "vin" : null, "vehicleStatus" : 1, "chargeStatus" : 3 }, "a

2021-09-21 23:11:48 1303

原创 flink自定义connector

实现细节1.实现DynamicTableSourceFactory , DynamicTableSinkFactory 注册 自定义connector resources目录下创建文件 org.apache.flink.table.factories2.自定义DynamicTableSource和DynamicTableSink 生成逻辑计划3.根据维表或者select功能实现LookupTableSource,ScanTableSource4.创建具体干活的查询任务...

2021-07-04 13:44:43 523

原创 为什么需要打破双亲委派

未完待续

2021-02-26 22:56:48 625 1

原创 csv 处理换行符号

package util;import org.apache.commons.io.FileUtils;import java.io.File;import java.io.IOException;public class CsvDealUtils { public static void main(String[] args) throws IOException { csvDealSpecial(); } /** * 处理 csv存在换行

2020-11-08 20:04:23 1504 4

原创 calcite learn

创建模型,model.json自定义SchemaFactory,CsvSchemaFactory自定义Schema,CsvSchema自定义Table,CsvTable、CsvScannableTable自定义Enumerator,CsvEnumerator

2020-10-06 20:54:59 198 1

原创 零次拷贝学习

四次拷贝mmap拷贝sendfile零拷贝技术都是减少数据在用户空间和内核空间拷贝技术实现的,但是有些时候,数据必须在用户空间和内核空间之间拷贝。这时候,我们只能针对数据在用户空间和内核空间拷贝的时机上下功夫了。Linux通常利用写时复制(copy on write)来减少系统开销,这个技术又时常称作COW。...

2020-06-24 11:32:31 153

原创 flink sql 转换

将 SQL文本 / TableAPI 代码转化为逻辑执行计划(Logical Plan)Logical Plan 通过优化器优化为物理执行计划(Physical Plan)通过代码生成技术生成 Transformations 后进一步编译为可执行的 JobGraph 提交运行row_number() over 求max min的方式,流式场景求解极大 / 小值的最优操作是通过维护一个 size 为 N 的 minHeap / maxHeap。由实现反推出我们需要在优化器上新增一条规则,在遇到 RO.

2020-06-23 10:22:17 1284

原创 flink-checkpoint 目录内容

_metadata:保存了state 的句柄,JM 解析元数据文件,做一些校验,将信息写入到 zk 中,然后准备从这一次 Checkpoint 中恢复任务其余小文件:是 state 数据,由各 Task 在触发 checkpoint 的时候上传,恢复的时候,JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state...

2020-06-05 14:20:58 1986

原创 flink blink_planner array解析,列传行

CREATE TABLE sourceTable ( event_time_line array<ROW ( `rule_name` VARCHAR, `count` VARCHAR )>) WITH ( 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.startup-mode' = 'earliest-offset', 'connector.topic'

2020-05-20 20:22:52 700

原创 Pravega 学习

目前lkappa架构,对历史数据的处理不是很好,Pravega 的 Stream 可以有无限制的数量并且持久化存储任意长时间,使用同样的 Reader API 提供尾读 (tail read) 和追赶读 (catch-up read) 功能,能够有效满足两种处理方式的统一目前还不是很清楚这个优秀的产品能够有什么作用,还需要学习,有知道的大佬,可以解释下吗?为什么出现这个产品,体会还不是很深。...

2020-05-09 19:09:33 933

原创 flink job 提交源码流程

client 算子变成streamGraph,jobGraphjob jobGraph生成executionGraphjob启动,通过driver端将算子转为StreamGraph,通过一些chain条件将可以chain的顶点chain在了一起转化成了JobGraph通过RPC将整个jobGraph向jobmanager提交...

2020-05-06 19:08:52 278

原创 flink exactly once

public enum CheckpointingMode { EXACTLY_ONCE, //BarrierBuffer AT_LEAST_ONCE;//BarrierTracker private CheckpointingMode() { }}

2020-05-05 11:43:55 135

原创 flink-dump-fullgc log打印分析

dumpenv.java.opts: -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=75 -XX:+UseCMSInitiatingOccupancyOnly -XX:+AlwaysPreTouch -server -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/load/...

2020-04-29 10:46:54 1352

原创 flink ddl 服务器 报错

ddl时候flink-connector-kafka_2.12 ddl时候需要provided 线上时候flink-sql-connector-kafka_2.12 compile 线上时候lib添加jar flink-sql-connector-kafka_2.12 flink-json

2020-04-15 21:14:38 149

原创 flink etl join

做个记录

2020-03-06 12:02:55 214

原创 堆排序 快排

堆排序关系parent = (i-1) / 2left = 2i + 1right = 2i+2public class HeapSort { public static void main(String []args){ int tree [] = {10,3,4,9,11}; int n = 5; heapSort(tree...

2020-03-03 12:17:59 141

原创 flink ddl kafka mysql

需要的jar <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-sql-connector-kafka_2.12</artifactId> <version>${fl...

2020-03-01 10:37:23 685

原创 FlinkSQL中的回退更新-Retraction

flinkSQL表转流Flink 提出 Stream <–> Dynamic Table 之间是可以等价转换的需要引入Retraction机制toAppendStream 只支持inserttoRetractStream 其余模式都可以持续更新...

2020-02-24 13:59:17 2139

原创 flink 零散积累

流转换 单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换keyBy会将一个DataStream转化为一个KeyedStream,聚合操作会将KeyedStream转化为DataStreamkeyedStream 有key的state、定时器分区策略是hashcodeshuffle randomrebalance Round-Robinrescale 将数据分发到就近...

2020-01-02 19:19:06 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除