- 博客(120)
- 资源 (2)
- 问答 (3)
- 收藏
- 关注
原创 JavaFlink原理、实战、源码分析(三)原理部分
JavaFlink原理、实战、源码分析(一)https://blog.csdn.net/qq_36250202/article/details/112978869JavaFlink原理、实战、源码分析(二)https://blog.csdn.net/qq_36250202/article/details/115668572第八章 ProcessFunction API(底层 API) ...
2021-04-15 17:47:30 408
原创 JavaFlink原理、实战、源码分析(二)原理部分
JavaFlink原理、实战源码分析(一)https://blog.csdn.net/qq_36250202/article/details/112978869第六章 Flink 中的 Window主要内容• window 概念• window 类型• window API6.1 Window6.1.1 Window 概述 streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割.
2021-04-13 15:13:25 920
原创 JavaFlink原理、实战、源码分析(一)原理部分
第一章 Flink 简介 Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。1.2 Flink 的重要特点 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。...
2021-01-22 10:51:09 1115 2
原创 SpringCloud Alibaba史上最强详解与史上最系统框架搭建
框架实现代码资源地址:springCloud_dataservice_bus.zip_springcloudalibaba搭建-Java文档类资源-CSDN下载目录一、官网集合:Springboot官网中文文档Mybatis官网SpringCloud Alibaba官网github中文官网英文官网Nacos官网Sentinel官网OpenFeign官网Gateway官网Seata官网Sleuth官网二、微服务架构编码构建2.1 idea新.
2020-06-18 11:03:40 18304 21
原创 统计Mysql库中每个表的总行数,解决table_rows不准确问题
注意:GROUP_CONCAT()默认容量是1024,拼接sql会出现截断,设置的大一些。
2023-08-23 14:56:50 910
原创 Java模拟登录并获取Cookie进行访问下一个页面
1. 获取__VIEWSTATE与__EVENTVALIDATION。返回页面html->Document并且转为字符串。
2023-08-14 14:07:47 616
原创 我的创作纪念日
获得了:5700多位粉丝,更是获得了很多友友的赞及私信红包(都未收,希望大侠风范可以传承,不求回报),并且收获了好的技术博客,使我慢慢的在积累中成长了起来(任重而道远,继续前行)2020年是发博客最多的一年,也是成长最快的一年,遇到了好的公司(CSII),遇到了好的领导wbs、zxm,遇到一群好的兄弟。// 如果存入的数小于指定生成的个数,则调用递归再生成剩余个数的随机数,如此循环,直到达到指定大小。有很多好的博主,17年第一次发博客并帮助了很多志同道合的友友们。// 将不同的数存入List中。
2023-07-25 11:41:19 139
原创 Hudi集成Flink
将 hudi-hadoop-mr-bundle-0.12.0.jar和hudi-hive-sync-bundle-0.12.0.jar放到hive节点的lib目录下;'hive_sync.metastore.uris' = 'thrift://ip:9083' -- required, metastore的端口。'hive_sync.table'='${hive_table}', -- required, hive 新建的表名。
2023-04-12 11:56:13 743 1
原创 mysql 更新update set from where 语法
Mysql 代替语法 update 表名 inner join 表名 on set。
2023-02-07 12:00:38 1925
原创 ClickHouse安装并与SpringBoot集成
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++ 语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。1.1 ClickHouse 的特点列式存储以下面的表为例:1张三182李四223王五341张三182李四223王五34好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想。
2022-10-18 15:47:49 2862
原创 Java实现Minio桶存储配额等一系列权限配置
Minio实现创建桶、桶存储配置(存储大小、生命周期)、策略配置、用户权限配置,获取桶已使用存储空间及配置总存储空间。Minio JavaAPI没有实现相关桶的一系列权限配置,所以自行研发了一套。2.MInio接口实现 MinioTemplateService。3.接口实现类 MinioTemplateServiceImpl。1.需要传的参数封装为实体类。............
2022-08-29 09:11:27 4759 4
原创 离线数仓建设及技术选型
主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。整合企业业务数据,建立统一的数据中心;产生业务报表,了解企业的经营状况;为企业运营、决策提供数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为企业盈利;➢ 数据采集传输:Flume,Kafka,Sqoop➢ 数据存储:MySql,HDFS(公司有云存储最好是上云)➢ 数据计算:Hive,Tez
2022-07-07 10:26:17 1142
原创 阿里云实时计算平台Flink报错汇总
一、报错问题1.2022.04.14记录全托管实时计算平台所有cdc模式都不支持窗口,如果加上cdc模式会报错:org.apache.flink.table.api.TableException: StreamPhysicalWindowAggregate doesn't support consuming update and delete changes which is produced by node TableSourceScan(table=[[vvp, dwd, holo_d
2022-04-22 15:37:07 3818
原创 ApacheHudi最强详解
一、Hudi介绍1.1 Hudi的定义:Apache Hudi是一种开源的数据湖表格式框架。Hudi基于对象存储或者Hdfs组织文件布局,保证ACID,支持行级别的高效更新和删除,从而降低数据ETL开发门槛。同时该框架支持自动管理及合并小文件,保持指定的文件大小,从而在处理数据插入和更新时,不会创建过多的小文件,引发查询端性能降低,避免手动监控和重写小文件的运维负担。结合Flink、Presto、Spark等计算引擎进行数据入湖和计算分析,常用来支持DB入湖加速、增量数据实时消费和数...
2022-03-09 19:53:02 1732
原创 Sql扫盲
数据集1.distinct1.1当distinct后跟一列时,只对当前列去重案例:select distinct name2 from holo_dwd_0_wangshuaizun_test_source2 1.2 当distinct 后跟好多列时,其实是对后面所有列名的组合进行去重案例:select distinct name2,sex from holo_dwd_0_wangshuaizun_test_source22.order by...
2022-01-10 17:35:27 515
原创 计算机存储单位
计算机存储单位 计算机存储单位一般用B,KB,MB,GB,TB,EB,ZB,YB,BB来表示,它们之间的关系是: 位 bit (比特)(Binary Digits):存放一位二进制数,即 0 或 1,最小的存储单位。 字节 byte:8个二进制位为一个字节(B),最常用的单位。 1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 简称“兆”)=1024KB, 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB,...
2021-12-30 16:48:41 270
原创 FlinkSql函数
rt AS TO_TIMESTAMP( FROM_UNIXTIME(ts) )FROM_UNIXTIME 是系统内置的时间函数,用来将一个整数(秒数)转换成 “YYYY-MM-DD hh:mm:ss”格式(默认,也可以作为第二个 String 参数传入)的日期时间 字符串(date time string);然后再用 TO_TIMESTAMP 将其转换成 Timestamp...
2021-10-27 10:22:49 5137
原创 JavaFlink开发的一些基本配置
默认情况下,检查点被禁用。要启用检查点,请在StreamExecutionEnvironment上调用enableCheckpointing(n)方法,其中n是以毫秒为单位的检查点间隔。检查点的其他参数包括: exactly-once vs. at-least-once:你可以从这两种模式中选择一种模式传递给enableCheckpointing(n)方法。Exactly-once对于大多数应用来说是最合适的。At-least-once可能用在某些延迟超低的应用程序(始终延迟为几毫秒)。
2021-10-20 15:46:50 688
原创 阿里云实时数仓搭建与组件选型
一、实时数仓分层规范1.1 分层需求分析建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。我们这里从 loghub、kafka 的 ods 层读取用户行为日志以及业务数据,并进行简单处理,写回到 kafka、hologres作为 dwd 层。1.2每层的职能 分层 数据描述 生成计算工具 存储媒介 ODS .
2021-10-09 17:41:03 1103 3
原创 Flink搭建实时数仓一些问题并解决
1.org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException:具体报错org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family ta
2021-09-03 16:22:25 711
原创 使用策略模式+工厂模式替换一串串的if else 与 switch
1.详解工厂模式与替换if else1.1详解工厂模式:https://blog.csdn.net/qq_36250202/article/details/101022057?spm=1001.2014.3001.5501通俗易懂,看完后要回来哦,你还没有学习怎么替换if esle1.2替换if esle1.2.1定义策略执行接口public interface LsssxsxtStrategy { // 定义策略执行方法 String algorithm(...
2021-08-31 10:10:52 312
原创 Hbase value存储的16进制转10进制与汉字
Hbasevalue=\x00\x00\x00\x00\x07'\x0E\x00这串16进制中有ACSII码字符1.需要对照ACSII码表把字符转换为16进制:\x00\x00\x00\x00\x07'\x0E\x00转换为:\x00\x00\x00\x00\x0727\x0E\x002.把第一位"\x"转换为16进制中已“0x”开头的,后边的\x去掉\x00\x00\x00\x00\x0727\x0E\x00转换为:0x0000000007270E003.使用linux转换
2021-03-18 15:11:33 1458
原创 Kafka实战中深入理解
生产者发布消息到分区的两种方式:1.通过随机方式将请求负载到不同的消息代理节点(分区partition)2.使用分区语义函数将相同键的所有消息发布到同一分区,对于分区语义,Kafka暴露了一个接口,允许用户指定消息的键如何参与分区。比如,我们可以将用户编号作为消息的键,因为对相同用户编号散列后的值是罔定的,所以对应的分区也是固定的。...
2020-11-27 13:53:42 538
原创 Storm并行机制与常见参数配置
一、Strom并行机制1.概述: Storm集群中的并发度主要由以下四个概念来决定:1)Nodes--服务器 指的是Storm集群中的一个服务器,会执行Topology的一部分运算,一个Storm集群中包含一个或者多个Node。2)Workers--JVM进程 指一个Node上相互独立运作的JVM进程,每个Node可以配置运行一个或多个worker。一个Topology会分配到一个或者多个worker上运行。3)Executor--执行线程 ...
2020-11-13 14:59:06 610
原创 kafka实际生产问题
1.场景storm从kafka消费处理T+0的数据2.问题kafka出现数据延迟问题例如:在处理T+0的数据拓扑中出现了T-1的数据3.排查因为kafka数据出现了数据延迟积压问题原因:生产者吞吐量太高导致消费者数量太少4.解决根据估算增加消费者数量具体术语稍后补上...
2020-11-13 14:09:44 237
原创 Hbase与Hive的集成
1.HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(1) 数据库是一种面向列存储的非关系型数据库。(2) 用于存储结构化和
2020-11-10 09:09:20 589
原创 IKExpression简易表达式解析器详细讲解
1. IK表达式介绍(IK Expression Introduction)IK Expression是一个开源的(OpenSource),可扩展的(Extensible),基于java语言开发的一个超轻量级(Super lightweight)的公式化语言解析执行工具包。IK ExpressionV2.0不依赖于任何第三方的java库。它做为一个简单的jar,可以集成于任意的Java应用中。这包括了JavaEE应用(基于应用服务器的), Java桌面应用以及Java WebStart方式的应用。IK
2020-11-06 14:16:34 3873
原创 Flink时间语义与Watermark
一、Flink时间语义在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据 中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事 件时间戳。 Ingestion Time:是数据进入 Flink 的时间。 Processing Time:是每一个执行基于时间操作的...
2020-10-22 11:15:33 249
原创 Linux 查看网络端口占用情况命令
1.lsof -i:端口号lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查
2020-10-14 10:17:58 2406
SpringBoot+MybatisPlus集成Clickhouse
2022-10-18
Minio桶一系列权限配置
2022-08-29
微信公众号拍照上传多张图片接口
2017-03-03
java微信公众号开发内置地图接口
2017-03-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人