自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(357)
  • 收藏
  • 关注

原创 基于docker-compose做版本升级

将mysql的镜像导出成tar文件到当前文件夹。docker-compose.yml文件。#离线做mysql升级。

2024-04-11 16:54:29 195

原创 数仓建模方法

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。性能:帮助我们快速查询所需要的数据,减少数据的I/O吞吐,提高使用数据的效率,如宽表。

2024-03-25 11:12:39 301

原创 数据血缘实现原理

大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题:面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大其实,以上的这些问题都可以统一归类为数据发现问题。

2024-03-14 10:27:11 147

原创 win11家庭版docker和milvus

2、双击打开下载好的文件Docker Desktop Installer.exe,add shortcut to desktop选择√代表同意添加快捷键到桌面,如果不勾选就说明不创建快捷键,大家根据自己需求选择就行。8、然后输入下述命令,设置 Windows 操作系统中的 Hyper-V 启动类型。,则会找不到Hyper-Vr,这时则需要自己创建,讲下述代码复制在txt文本里,并重命名为Hyper.cmd,6、找到控制面板--程序--程序和功能--启用或关闭windows功能 ,勾选Hyper-V。

2024-03-07 14:03:00 609

原创 向量化vectorization

向量化:向量化是一种特殊的编程技术,它可以充分利用现代处理器的并行处理能力,以提高代码的执行效率。它的基本思想是对一组数据(或称为数据向量)执行相同的操作,而不是对单个数据元素逐一执行。这样可以极大地提高代码的运行效率,因为处理器可以在同一时间内处理多个数据元素。

2024-03-05 09:55:46 247

原创 aidd-rdkit使用

rdkit的新版本是pypi,3.8以下的python只能用rdkit,以上只能用pypi。不要用conda包管理器 不然非常缓慢。

2024-03-04 10:21:49 164

原创 Spark常见问题解决-日志和排查办法

(3)查看是否任务参数设置不合理,例如executor-memory是设的大,但是--num-executors设置的很少才几十个,可以根据集群情况和业务量大小合理增大executor数,数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据(如128或256M),在没有设置--executor-cores等参数的情况下,默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。

2024-01-25 13:44:51 256

原创 win下安装tensorflow

1首先ctrl alt delete打开任务管理器查看GPU型号

2024-01-16 20:54:02 375

转载 ESB服务&数据总线平台介绍

ESB企业服务总线作为集成龙骨满足应用、数据和业务等集成需要,应用集成如统一认证、单点登录等主要实现业务系统间的对接;数据集成如主数据治理和数据分析等,通过ESB实现数据的聚合以及分发;业务集成如业财一体化等,实现企业业务之间的互联互通。在集成的过程中,ESB的作用至关重要,它连接着上下游业务系统,构建了数据集成传输的通道,是企业信息化建设由无序到有序、由散乱到规范、由点对点到总线式的有效工具与手段。ESB企业服务总线在实际项目中主要用于各业务系统之间的集成,集成包括数据集成、应用集成以及业务单据集成。

2024-01-12 11:08:01 841

原创 DAMA-描述性、诊断性、预测性和规定性分析

通过利用机器学习算法和统计模型,公司可以预测销售和需求的波动,识别旺季,优化库存管理,并保持敏捷,以应对不断变化的市场条件。规范分析通过使用优化算法和模拟工具来提高供应链效率,它仔细检查关于库存水平、生产能力、运输物流和市场需求的大量数据,以制定采购、生产和分销战略,这种方法可以降低成本,缩短交货期,并提高供应链的整体绩效。使用诊断分析分析客户流失时,需要仔细检查数据以确定导致客户流失的因素,这涉及对客户行为、反馈和参与度指标进行彻底检查,以发现可能指示客户终止与产品或服务的参与度的原因的模式和趋势。

2024-01-09 11:20:14 910

原创 python获取当前用户home目录和username

【代码】python获取当前用户home目录和username。

2023-12-22 10:04:23 207

原创 sed和awk使用

3、sed读取一行数据,会以行作为单位进行处理,而awk读取一行,会切割成字段,区别: 1、sed是流编辑器(行),而awk是文本格式化工具,报告生成器(解释型的编程语言);2、awk适合对文件进行抽取整理,sed适合对文件进行编辑;以字段(列)为单位,进行细节处理。

2023-11-29 16:28:55 202

原创 netstat和ps命令

意思为 127.0.0.1:36644 通过进程号83369访问 127.0.0.1:9091 ,成功ESTABLISHED了连接。

2023-11-29 13:36:00 510

原创 HDFS元数据管理/磁盘清理维护

文件、目录自身的属性信息,例如文件名,目录名,修改信息等文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。

2023-11-23 10:11:04 1762

原创 防火墙操作:开放端口&ICMP时间戳请求漏洞修复

-一些新的 Linux 系统中,我们可以使用 firewalld 命令来管理防火墙规则。该命令将在防火墙规则中添加一条规则,允许 TCP 协议通过 8080 端口进行连接。重新加载防火墙规则: sudo firewall-cmd --reload。--permanent 参数将该规则永久性添加到防火墙中。响应ICMP时间戳请求漏洞修复。--检查端口是否已经被占用。

2023-10-20 13:52:47 856

原创 安装docker并在内安装mysql

在卸载Docker之前,首先需要停止Docker服务。yum -y install docker.io 或 apt-get install -y docker.io。卸载Docker软件包后,你还需要手动删除Docker相关的文件和目录。登录容器之前需要先启动容器: docker start 容器id (上面已经启动了 不用再启动)进入容器,从容器中登录MySQL:mysql -uroot -pJmkx_2022。Docker在安装时创建了一个名为docker的用户组和用户,

2023-10-19 09:28:18 558

原创 flinkdashboard未授权

访问 http://172.16.150.xx:8084。然后目录在/usr/local/nginx。flinkwebui 增加账号密码。添加配置完成以后,重启nginx,修改flink.conf。配置nginx.conf。

2023-10-16 12:25:30 1011

原创 flink参数设置

移动云帮助中心

2023-10-15 22:55:41 52

原创 连续重复10次以上

【代码】连续重复10次以上。

2023-10-06 19:16:25 44

原创 mysql5升级到mysql8的血泪教训

我这里备份了全库,所以后面数据没恢复回来,把DDL语句拆出来了单独建表。核心问题1:下载中断这个包就会有问题,下载中断的话一定要重新下载。核心问题2:低版本向高版本迁移 无法整库备份 只能单库备份。# 安装包上传至原安装包目录下 我的是。更改配置文件/etc/my.cnf。# 文件夹重命名为mysql8。给用户某库下所有表的增删改查权限。# 修改mysql服务启动项配置。# 这两句很重要 一定要 -R。# 修改basedir目录。

2023-09-20 15:38:16 442

原创 PyCharm导入python项目

在弹窗中,选择New environment 或者 Existing environment都可以,路径选择本地配置的python.exe路径即可;进入PyCharm后,点击File→Open,然后在弹窗中选择需要导入项目的文件夹;打开了python项目后,需要配置该项目对应的python才可以正常运行;在设置弹窗中选择Project Interpreter,然后点击add;然后就大功告成了,可以去试着运行你的程序了~配置步骤:File→settings。

2023-09-18 18:06:12 406

原创 Grafana+Alter+webhook发预警给钉钉

Grafana通过为警报分配标签来处理警报通知,alert rules有定义label,即给不同的触发规则定义label。notification policies里配置label和contact points的关系。notification policies 将alert rules与contact points关联起来。1.架构简介:alert rules、contact points 、notification policies。首先复制出来钉钉群的钉钉机器人的access_token。

2023-08-02 09:53:25 495

原创 数据常用名词解释,数仓表设计

例如:现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id ,登录表中也存储了会员ID,字段名为userid ,此时针对会员ID这个数据创建统一的数据标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。即时间线,在基线运维场景中,通过设定几条时间线(即基线),并将线上任务关联到这些时间线上,当这些任务的实例或上游实例运行失败,或者这些实例的预计产出时间超过对应的时间线时,系统会触发报警通知给值班人员。

2023-04-21 16:50:00 567 1

原创 Python判断日期是否为休息日并做成日历表

pycharm安装chinesecalender ,file-setting-python interpreter加号找chinesecalender 然后安装。做基础日历表的那一部分可以看我的另一篇博文 Hive日历表。

2023-04-20 11:14:48 167

原创 FlinkCE(4):贪婪词量匹配和四种匹配模式

{n,}(n或者更多行(n≥O))+(至少匹配1行或多行){n}(严格匹配n行)*(匹配0行或多行)

2023-03-28 13:13:53 122

原创 FlinkCEP(3)-宽松近邻

代表e2至少要满足一次。依赖和上一篇文章一致。

2023-03-28 09:59:30 75

原创 FlinkCEP(2)-严格近邻代码演示-风控系统构建

输出满足条件的三条数据的合并结果为,e1的id,e1.price为平均,e1.rowtime为开始时间,e3.rowtime为结束时间。且代码中明示e1,e2,e3三个时间的间隔要在2min内完成。严格相邻的三条数据,分别满足1,2,3三个条件,回头看数据中满足的数据为。

2023-03-28 09:40:38 119

原创 即刻设计使用

右边 背景色:加号展开,导出背景色反选掉,眼睛点下设置为屏蔽。2:复制,左上角上传到资源库,新开页面从资源库获取。1:下载:上方按钮 导出所有切片为png。点击元素,选中右边的导出,点击加号。

2023-03-14 13:39:17 189

原创 FlinkCEP(1):复杂事件处理引擎介绍

SKIP TO NEXT ROW -匹配成功之后,从匹配成功的事件序列中的第⼀个事件的下⼀个事件开始进⾏下⼀次匹配。SKIP TO FIRST variable -匹配成功之后,从匹配成功的事件序列中第⼀个对应于变量的事件开始进行下⼀次匹配。SKIP PAST LAST ROW -匹配成功之后,从匹配成功的事件序列中的最后⼀个事件的下⼀个事件开始进⾏下⼀次匹配。{n,m} 在n到m(包含)行之间(0≤n≤m,0 {,m}一在0到m(包含)行之间(m>0){n} 严格n行(n>0)

2023-02-27 17:43:55 402

原创 FlinkSql-滚动窗口-滑动窗口-追加模式/缩进模式

滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。场景:接收通过socket发送过来的数据,每30秒触发一次窗口计算逻辑。(3)从socket端接收数据,并设置30秒触发执行一次窗口运算。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;(2)编写socket代码,模拟数据发送。(1)准备一个实体对象,消息对象。

2023-02-27 16:57:17 510

原创 FlinkSql-UDF

在大多数情况下,用户定义的函数必须先注册,然后才能在查询中使用。不需要专门为Scala 的Table API注册函数。函数通过调用registerFunction()方法在TableEnvironment中注册。当用户定义的函数被注册时,它被插入到TableEnvironment的函数目录中,这样Table API或SQL解析器就可以识别并正确地解释它。

2023-02-27 15:45:26 493

原创 Flink-Checkpoint&Savepoint-任务恢复,任务保障制度

checkpoint是flink job定期做的检测点,savepoint是停止job时人为指定的保存状态目录。老的方式(cancel,以过时),-s指定的是savepoint的目录。新的方式(stop),-p指定的是savepoint的目录。-s指定的是定checkpoint或savepoint目录。savepoint中的状态更新一些。

2023-02-22 17:48:58 728

原创 FlinkSQL对应的数据类型

DECIMAL、DECIMAL(p)、DECIMAL(p, s)、DEC、DEC(p)、DEC(p, s)、NUMERIC、NUMERIC(p)、NUMERIC(p, s):固定长度和精度的数值类型,就和 Java 中的 BigDecima一样,p 代表数值位数(长度),取值范围 [1, 38];BIGINT:-9,223,372,036,854,775,808 to 9,223,372,036,854,775,807 的 8 字节大小的有符号整数,就和 Java 中的 long 一样。

2023-02-21 18:03:11 1555

原创 文件格式对比ORC-Parquet,存储格式对比Gzip-Bzip2-Snappy,Hive和Spark对比

Parquet常用于Impala、Drill、Spark、Arrow;5.处理深层次文件 parquet设计之初就是为了处理嵌套式数据如json。除此之外没有比ORC好太多的地方。impala和spark现在很流行所以parquet存储格式流行。4.orc支持事务表分桶update操作,parquet完全不支持。1.存储文件的压缩比总结:ORC > Parquet。2.存储文件的查询速度总结:查询速度相近,ORC好一点点。3.可兼容的平台:ORC常用于Hive、Presto;

2023-02-14 17:27:25 1172

原创 统计hive-hdfs文件大小日常腾出磁盘

【代码】统计hive-hdfs文件大小日常腾出磁盘。

2023-02-09 17:15:48 312

原创 数据平台权限控制-基于猛犸

每张表的存储路径 如下 hdfs://cluster1/user/jmkx_data/hive_db/jmkx_data.db/ods_plm_newbudget_budgetcostreport_dd。专注本项目的逻辑和代码,不在本项目内的人员无法查看代码逻辑,但是可查询表。其中的jmkx_data是库名也是项目名。可控制筛选框把对应数据开放给对应权限的人。只开放表中的某一部分数据给对应的人员。在hive查询 两种方式都可以。

2023-01-29 10:27:47 400

原创 <<-EOF、whoami、spawn、expect、interact、sudo、su用法

在shell脚本中(bash编程),

2022-12-14 13:24:28 420

原创 Mysql的时间类型选定:Datetime,Timestamp,Bigint

1. 基本区别:2. 其他特性:1. TIMESTAMP是以utc格式存储,会自动检索当前时区对时间进行转换,而DATETIME不会。2. 存入null时,TIMESTAMP会自动存储当前时间,而DATETIME存储null值。3. 时间计算:DATETIME翻译为汉语即"时间戳",它是当前时间到 Unix元年(1970 年 1 月 1 日 0 时 0 分 0 秒)的秒数。

2022-12-02 15:28:28 920

原创 猛犸优化Summary

同层次的任务最多默认只能启动10个,十个席位空闲出来才能有新的任务执行。

2022-11-23 14:23:55 246

原创 Curl获取GET/POST接口数据然后注入Hive

【代码】Curl获取接口数据然后注入Hive。

2022-11-17 09:57:56 682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除