自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(301)
  • 资源 (1)
  • 收藏
  • 关注

原创 【奇奇怪怪的bug】今天Flink程序又又挂了,来学学Task Failure Recovery补救补救

背景:目前的yarn集群比较少,在数据量大一点,运行资源不足的情况下经常会影响到实时程序(内心os:还不如搭个flink 集群得了跑啥on yarn嘛毕竟穷是原罪。。。,现在整天都要擦屁股。。。。。)心跳容器超时,也就是在规定的时间内TaskManager 无法为task 向JobManager申请到container 网络,cores,内存都有可能引起直接查看flink的重启策略是什么:点击dashborad=》Running Job =》Configuration默认重启策略,没开启chec

2020-08-28 23:31:40 1697 2

原创 【奇奇怪怪bug】Flink 1.10 on yarn ,application 在yarn 显示Running ,webui 显示Failed

今天产品气势汹汹的跑过来跟我说,生产环境的实时程序不对啊!!!!添加数据一直看不到展示开始不可能三连:1.不可能吧,早上还好端端的 2.不可能会出问题的,可能是网络延迟 3.不可能出不来啊,是不是你没清缓存,你清缓存试试看打发了产品回去之后,立马登上去看1.排查1.1 yarn 运行的好端端的,没收到电话跟短信是正常的(ps:这里加了监控实时任务挂掉的话是会电话短信通...

2020-08-20 20:38:33 2654 3

原创 【KAFKA】kafka可视化工具kafkaTool 免费下载

【资源是免费的,官网可下载,可是官网下载的网络实在是太慢了有时候还会断线,我也是花了很长时间才下载下来的,提供给大家一个方便】符合kafka version 0.11+mac 版:链接:https://pan.baidu.com/s/1q6qKrEbaDGukvqHLomrQdg 密码:qqy2windows 64bit 版:链接:https://pan.baidu.com/s/...

2020-03-20 11:09:26 8023 7

原创 【ClickHouse】从Mysql迁移到ClickHouse大全

从关系型的数据库(Mysql)升级到列式管理的联机分析型数据库(ClickHouse),这不亚于是小米加步枪升级为加特林机关枪的性能提升了,查询能力等确实是大大的提升了,这出现了一个问题我们之前存储在Mysql里的历史数据怎么往ClickHouse里面迁移呢,总不能不要吧那对业务来说他们可是不关心你底层数据怎么存储的,他们只希望数据准确,齐全,那下面我们就来说说都有哪些方式可以实现补全缺失的历史数据环境:ClickHouse:21.8.12.1,Python:3.6.8

2023-01-06 15:22:58 4624 2

原创 【Flink】【ClickHouse】写入流式数据到ClickHouse

Flink 安装的教程就不在这里赘叙了,可以看一下以前的文章,这篇文章主要是把流式数据写入的OLAP(ClickHouse)中作查询分析Flink 1.13.2, ClickHouse22.1.3.7

2022-10-24 17:22:25 3566

原创 【ClickHouse】ClickHouse 实用语法

ClickHouse 实用SQL

2022-10-18 15:05:58 555

原创 【Flink】在算子中使用Tuple出现的bug

在使用map,flatMap 算子的过程中想把pojo 转换成Tuple 类型进行输出,在编码的过程中正常,运行是出现异常

2022-07-06 15:12:12 689

原创 【Flink】 执行flink-python Test模块遇到的Bug

环境:Flink Version 1.15,Scala 2.11,Jdk 1.8,Maven 3.6背景,今天在测试flink-python 模块下的PythonProgramOptionsITCase.testConfigurePythonExecution方法时提示java: 程序包org.apache.flink.sql.parser.impl不存在1、run PythonProgramOptionsITCase.testConfigurePythonExecution2、执.

2022-04-22 14:48:09 2605

原创 【GIT】git 多个commit合并为一个commit

背景:git 中有两条分支 dev,master,平时在dev分支中开发,同一个需求/BUG有时候会在dev分支上产生很多次commit,如果我们直接merge到master分支上就会在commit history中产生特别多的commit记录,为了简略美化提交到master中的同一个需求/BUG的commit只有一个同时保留author的信息1、切换到dev分支本地的dev分支已经提交了多次commit到远程的dev分支git checkout dev2、查看提交的logg...

2022-03-24 16:56:00 1172

原创 【FLINK】实时流读取维表(二)Async I/O

1、aysnc i/o 的设计The following diagram illustrates how the streaming records are processed whilearriving at AsyncWaitOperator recovering from task failover snapshotting state being emitted by Emitter Thread来源:FLIP-12: Asynchronous I/O Design and Imp

2022-01-18 17:20:01 557

原创 【FLINK】实时流读取维表(一)Broadcast State Pattern

1、什么是广播状态What is Broadcast State?TheBroadcast Statecan be used to combine and jointly process two streams of events in a specific way. The events of the first stream are broadcasted to all parallel instances of an operator, which maintains them as s..

2022-01-17 19:36:16 1901

原创 【FLINK】The requested state does not exist. Check for typos in your state descriptor, or specify the

背景:Flink 1.13 ,Scala 2.11在使用Flink Broadcast State Pattern的时候,发现启动的时候的出现异常1、报错信息Caused by: java.lang.IllegalArgumentException: The requested state does not exist. Check for typos in your state descriptor, or specify the state descriptor in the da.

2022-01-14 20:12:15 1275

原创 【FLINK】This type (GenericType) cannot be used as key.

背景:flink 1.13.2 scala 2.11 在使用flinkKeyedProcessFunction函数时,在上一步的keyBy函数里使用fieldName,产生了上面的错误类型,说POJO类型不能做为key1、类的定义@Data@EqualsAndHashCodepublic class ClickDataEntity implements Serializable, CommonInter { private st...

2021-11-02 15:26:00 1560 2

原创 【FLINK】flink 读取Kafka数据写入Hive表中

背景:对实时的历史数据持久化保存到Hdfs中,可以使用Hive Sql 追溯历史数据给业务参考多维度指标版本信息:Flink 1.11.2,Scala 2.11,Kafka 2.12,Hive 2.3.71、引入pom.xml内容<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://ww...

2021-05-09 16:23:49 5200 26

原创 【FLINK】Flink 状态后端学习及如何选择合适的StateBackends

背景:其实关于flink statebackend的这篇文章我犹豫了很久要不要写,因为我觉得官网上面解释的就很详细了,最终还是落笔写下这篇文章最重要的原因是总结提取一下重要的内容给自己也给刚接触的同学吧...

2021-05-01 16:33:24 904

原创 【HIVE】Hook(钩子)函数从入门到放弃

背景:初衷是源于对hive hook(钩子)函数的一知半解,在跟大佬交流过程中恨自己理解的不够深入(丢脸了,丢脸这件事一次就够了哈),故写下了这篇文章自省也希望大家可以从中学习1、了解hive hook需要先了解hive的整体是怎么运行的,我们先来看看我们平时写下的一句句hql是怎么运行的吧图来自:https://cloud.tencent.com/developer/article/16768161.0、具体处理流程如下:HQL解析生成AST语法树 Antlr定义SQL的语法规.

2021-03-30 14:16:10 7639 6

原创 【HIVE】hive 使用shell脚本跑历史数据

背景:补充分区表历史数据,写了个shell脚本脚本代码:vall=(20191201 20191224 20191225 20191226 20191227 20191228 20191229 20191230 20191231 20200101 20200102 20200103 20200104 20200105 20200106 20200107 20200108 20200109 20200110 20200111 20200112 20200113 20200114 20200..

2020-12-31 10:33:11 650

原创 【HIVE】 hive元数据查询语句集合

1、查询表字段select d.db_id, d.NAME db_name, t.tbl_id, t.tbl_name, t.tbl_type, from_unixtime(t.create_time) create_time, c.column_name, c.type_name column_type, c.comment column_descfrom TBLS t inner join DBS d on t.DB_ID = d.DB_IDinner join SDS s on t.SD

2020-12-28 15:56:11 1169

原创 【HIVE】从零开始编写UDF函数对MD5加密的数据解密查询

背景:对敏感数据脱敏其实也就是加密,用的是mysql,hive的md5加密函数,现在需要提供一个UDF函数给应用方查询,换句话说就是用明文来查询密文数据里面的其他对应字段数据一、编写UDF函数1、构建Java Maven项目IDEA步骤: File -》 New -》Project... -》Next -》填写项目名称2、pom.xml 文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="ht...

2020-12-28 15:11:49 2325

原创 【CANAL】canal 针对message过大无法写入kafka解决方案

背景:在canal.instance.log中看到message过大,无法写入kafka报错log:[pool-348-thread-5] ERROR c.a.o.canal.connector.kafka.producer.CanalKafkaProducer - java.util.concurrent.ExecutionException: org.apache.kafka.common.errors.RecordTooLargeException: The request includ.

2020-12-23 12:27:54 2758 1

原创 【HIVE】 hive 导入导出csv(全)

Hive 导入csv文件H1、检查是否有hive-serde 包1.1 进入hive lib目录cd /usr/local/service/hive/lib1.2 发现hive version 是2.1.1 ,查看是否添加了hive-serde-2.1.1.jar(我这里已经添加了,没添加的看后续1.3)ll hive-serde-2.1.1.jar1.3 没添加的,直接下载,放到lib目录下cd /usr/local/service/hive/lib...

2020-12-21 17:42:38 3774

原创 【FLINK SQL CLIENT】使用flink 1.11.2 sql client 使用HiveCatalog实践过程

版本:Apache Flink 1.11.2 for Scala 2.11 下载地址:https://mirror.bit.edu.cn/apache/flink/flink-1.11.2/flink-1.11.2-bin-scala_2.11.tgz Hive 2.1.1 (腾讯云版本)参考官方Example链接:https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/hive/hiv...

2020-12-16 17:18:09 1883 5

原创 【AIRFLOW】CROSS DAG 实例

Cross DAG(暂时没有时间详细解释里面的内容)ExternalTaskSensorExternalTaskMarkerhttps://airflow.apache.org/docs/apache-airflow/stable/howto/operator/external.html实际例子:from airflow import DAGfrom airflow.operators.bash_operator import BashOperatorfrom datet.

2020-12-14 11:21:07 717

原创 【FLINK】 No Executor found. Please make sure to export the HADOOP_CLASSPATH

背景:为了更好的使用flink sql&table,系统决定从flink 从1.10 升级到 1.11,然后在测试flink example的命令时出现了这个bug(不懂怎么安装的直接参考官网链接:https://ci.apache.org/projects/flink/flink-docs-release-1.11/try-flink/local_installation.html)java.lang.IllegalStateException: No Executor found.

2020-12-10 11:42:24 9580 16

转载 【FLINK】RECEIVED SIGNAL 15: SIGTERM. Shutting down as requested.

参考以下两篇博客,定位解决了问题,【备注学习】本人使用的版本是flink 1.101、Flink任务物理内存溢出问题定位问题现象一个使用10秒滚动窗口的任务在平稳运行一段时间之后出现了频繁的重启。在TaskManager日志中能看到以下文本:2019-03-17 16:05:28,854 INFO org.apache.flink.yarn.YarnTaskExecutorRunner - RECEIVED SIGNAL 15: SIGTERM..

2020-12-02 14:35:19 8037

原创 【FLINK】记一次savepoint 重启升级程序

详细命令可以参考官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/state/savepoints.html1、保存savepointbin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppIdeg:flink savepoint c4d233a01006c3a872ba40a9115dc7c5 hdfs://10.0.0.xx:40

2020-12-01 21:08:11 485

原创 【CANAL HA】Could not find first log file name in binary log index file

1、canal 单机版可以参考下面的博客:https://blog.csdn.net/Zsigner/article/details/1089753902、CANAL HA模式这篇文章主要是针对CANALADMIN【HA】集群模式的报错信息:2020-11-30 11:09:22.568 [destination = test , address = /127.0.0.1:3306 , EventParser] WARN c.a.o.c.p.inbound.mysql.rds.Rd..

2020-11-30 15:34:28 668

原创 【Canal】 从binlog接入kafka,动态创建topic 写入数据

1、接入kafka(以下内容来自官方文档:https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart)Canal Kafka RocketMQ QuickStart基本说明canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka:https://github.com/apache/kafka RocketMQ :...

2020-10-15 17:29:32 3792

原创 【Canal】ERROR column size is not match for table:db_test.test,22 vs 21 解决

背景:canal 版本 1.1.4错误提示:ERROR com.alibaba.otter.canal.common.utils.NamedThreadFactory - from MultiStageCoprocessor-Parser-example-3com.alibaba.otter.canal.parse.exception.CanalParseException: com.alibaba.otter.canal.parse.exception.CanalParseExceptio

2020-10-14 14:59:50 2349 2

原创 【Canal】 Error:com.alibaba.otter.canal.common.alarm.LogAlarmHandler - destination:example[java.io.IOE

查看example日志发现异常如下:2020-10-09 11:06:45.011 [destination = example , address = /10.0.0.39:3306 , EventParser] ERROR com.alibaba.otter.canal.common.alarm.LogAlarmHandler - destination:example[java.io.IOException: Received error packet: errno = 1236, sqlsta

2020-10-09 11:38:49 6640

原创 【Elasticsearch】Elasticsearch exception [type=version_conflict_engine_exception, reason=[type][_id]:

背景:使用elasticsearch-rest-high-level-client 对ES进行更新操作,用seqNo来校验版本,现在报版本冲突错误如下:Elasticsearch exception [type=version_conflict_engine_exception, reason=[type][_id]: version conflict, required seqNo [1222528], primary term [1]. current document has seqNo [1

2020-09-21 20:25:28 8874

原创 【KAFKA】Kafka 基本命令

1、查看消费组详情kafka-consumer-groups.sh --group cosumer_test --bootstrap-server 127.0.0.1:9092 --describe

2020-09-21 11:21:22 133

原创 【SQOOP】 sqoop java.lang.RuntimeException: Can‘t parse input data: ‘\N‘,For input string: “\N“

背景: sqoop 从hive导数据到mysql,出现异常java.lang.RuntimeException: Can't parse input data: '\N',For input string: "\N"Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map...

2020-09-17 14:32:52 2076

原创 【FLINK 】 Flink on YARN模式下TaskManager的内存分配

解决背景: 总的ytm分配的不变的情况下怎么划分给堆内内存JVM 一个更大的内存空间对于心急的同学来说,我们直接先给一个解决方案,后面想去了解的再往下看:原来的命令,-ytm 8192,分配给taskmanager 的JVM 有3.29Gflink run -m yarn-cluster -ynm streaming -ys 3 -p 3 -yjm 2048 -ytm 8192 -c com.xxx.mainClass /home/hadoop/xxx.jar优化后的命..

2020-09-15 16:21:47 2103

原创 【YARN】 yarn 命令记录

1、查看正在运行的 Running Jobyarn application --list 拓展:查看application name 应用是否在运行yarn application --list | grep [application name]eg:yarn yarn application --list | grep labelStreaming2、kill 掉 正在运行的 application 应用yarn application -kill applicat.

2020-09-12 20:52:53 262

原创 【FLINK】Flink On Yarn 提交Job添加参数项

提交参数项 -yDflink run -d -m yarn-cluster -ynm com.xiaoe -ys 3 -p 6 -yjm 2048 -ytm 10240 -yD containerized.heap-cutoff-ratio=0.1 -yD taskmanager.memory.off-heap=true -yD taskmanager.memory.size=100m -yD heartbeat.timeout=18000000 -c com.xxx /usr/local/flin

2020-09-11 11:29:01 5315

原创 【Mysql 备份】语句

1、备份数据库里所有的表结构不要数据,不用Drop语句mysqldump -h10.0.0.1 -utest -ptest --skip-add-drop-table -d test >~/test/mysql_ddl.sql2、备份数据库里所有的表结构要数据,需要Drop语句mysqldump -h10.0.0.1 -utest -ptest -p test >~/test/mysql_ddl.sql...

2020-09-08 11:15:44 349 2

原创 【DataX 增量同步】读取Mysql数据到HDFS

如果是第一次操作的同学不知道的可以看我之前写的博客,操作过一次后面基本是相同的了在目录三:https://blog.csdn.net/Zsigner/article/details/1083627241、生成hdfswriter plugins 修改pom.xml//原始的里面是所有很全的,不过一般都是按需install <modules> <module>common</module> <module>.

2020-09-05 20:57:32 1252

原创 【DataX 增量同步】Mysql 同步数据到 es(Elasticsearch)

简介:阿里云开源离线同步工具DataX3.0介绍 一. DataX3.0概览​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。如果不熟悉的话可以先进行了解:https://developer.aliyun.com/article/59373源码开源地址:https://github.com/alibaba/DataX?spm=a2c6h.128736..

2020-09-02 16:29:31 5787

转载 【算法学习】LeetCode 486题 预测赢家

给定一个表示分数的非负整数数组。 玩家 1 从数组任意一端拿取一个分数,随后玩家 2 继续从剩余数组任意一端拿取分数,然后玩家 1 拿,…… 。每次一个玩家只能拿取一个分数,分数被拿取之后不再可取。直到没有剩余分数可取时游戏结束。最终获得分数总和最多的玩家获胜。给定一个表示分数的数组,预测玩家1是否会成为赢家。你可以假设每个玩家的玩法都会使他的分数最大化。示例 1:输入:[1, 5, 2]输出:False解释:一开始,玩家1可以从1和2中进行选择。如果他选择 2(或者 1 ),那么玩.

2020-09-01 20:30:00 192

bak_hive_ddl.sh

hive数仓databases,tables DDL语句 备份脚本,下载即可直接运行,需要运行脚本前须保证数据库已创建完成,数据库需要手动创建

2020-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除