自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(197)
  • 资源 (6)
  • 收藏
  • 关注

原创 macos pycharm调试airflow代码

pycharm本地调试airflow

2023-12-02 10:27:40 559

原创 map源码分析

map源码

2023-02-24 17:53:15 658

原创 List 源码分析

list 源码

2023-02-24 17:50:55 393

原创 java 集合特点

java 集合特点

2023-02-24 17:50:01 354

原创 spark09-wordcount程序执行原理

spark 任务划分源码

2023-02-23 12:48:45 304

原创 spark08-spark任务启动环境准备

spark运行任务环境准备

2023-02-23 00:09:29 207

原创 spark07-自定义累加器实现wordCount

spark自定义累加器

2023-02-16 21:54:06 83

原创 spark06-cache persist checkpoint 区别

spark cache persist checkpoint 区别

2023-02-15 23:01:22 106

原创 spark05-实现wordcount的11种方式

spark实现wordcount

2023-02-15 11:38:43 192

原创 spark04-文件读取分区数据分配原理

文件分区数据分配

2023-02-13 17:57:18 649

原创 spark03-读取文件数据分区数量个数原理

spark 读取文件 产生分区原理

2023-02-13 17:44:41 818

原创 spark02-内存数据分区分配原理

spark 集合数据分区数据切分原理

2023-02-13 13:28:03 228

原创 spark01-内存数据分区数量个数原理

spark 集合中读取数据分数个数的原理

2023-02-13 11:40:44 290

原创 mnist.npz 数据集

数据集 数据集

2022-12-23 16:14:01 780

原创 05. 聚类---K(k-means)均值

python实现kmeans

2022-07-27 00:28:46 404

原创 04. k近邻(k-nearest neighbour,KNN )分类鸢尾花

py 分类 鸢尾花

2022-07-24 23:58:38 489

原创 03 python 机器学习库求解线性回归

sklearn 线性回归

2022-07-24 11:08:09 552

原创 02 python 实现线性回归-一元线性回归-梯度下降

python求解一元回归 梯度下降法

2022-07-24 09:46:47 875

原创 01.python 实现线性回归-一元线性回归-最小二乘法

线性回归 最小二乘法

2022-07-22 00:23:09 1779

原创 hue ensure called on an unitialized

ensure called on an unitialized报这个错误的原因是hue的session过期,操作如下:

2022-04-15 15:00:06 2141

原创 hive lateral view explode + union all 丢数问题

select xxxxx from table lateral view explode(split(regexp_replace(businessdict,'\\[|\\]','__'),'__')) col as jsons where pt=${v_1day} and businessdict like '%name%' union all select xxxx from table当使用 lateral view ...

2022-04-12 11:02:51 2596 4

原创 面试链接整理

连接最新大数据面试题真题总结(附答案)_liuhai的博客-CSDN博客_大数据常见面试题及答案

2022-03-01 08:01:41 1069

原创 流量埋点相关

Acquisition,Activation,Retention,Revenue,ReferCAC:Customer acquisition cost流量不区分 局部 还是整体理 从数据来源 到数据消费 从埋点开始考虑思考埋点的事情 ,摸一下埋点整体的流程埋点管理埋点生命周期 1.埋点需求2.设计埋点3.埋点管理平台配置4.开发5.测试埋点是否正确6.上线埋点7.监控埋点质量8.评价埋点的好坏质量如何保障 事前 事中 事后事前 归...

2021-06-23 18:17:47 200

原创 FS-LDM第十三讲-----Finance主题(财务)

Finance主题—主要特征总账和日记凭证 分类账务-资产、GL分型-资产、负债、权益、收入和费用 总账科目余额-预算和决算 与交易事件和账户/协议 为账务编目提供灵活性FINANCE主题-主要实体...

2021-04-07 09:41:45 672

原创 FS-LDM第十一讲-----CAMPAIGN主题(营销活动)

CAMPAIGN主题 — 概述营销活动是为了获取、维护、增强银行与客户的关系而开展的一些促销的活动; 营销活动是一些有组织的活动,其目的可以是为了把某些产品推向市场,也有可能是为了树立银行在市场上的形象; 完整的营销活动应该包括营销策略、营销行为以及营销活动的反馈信息; 收集营销活动的信息可以帮助银行发现最有效的营销方式,了解不同类型客户对营销活动的反馈CAMPAIGN主题—业务规则营销活动的策略可能是很多层次的; 一个营销活动可能会导致实施一个或多个实际的促销事件; 一个营销活动可以通

2021-04-06 18:12:05 958

原创 FS-LDM第七讲-----ASSET主题(资产)

Asset - 客户资产定义: 客户资产(ASSET)主题是所有可能采集到的各种客户的资产(负债)信息,包括有形的和无形的各种客户资产/负债,同时海可以存储银行向外租赁的各种资产信息。 可能是客户的不动产、商品存货、珠宝、机动车辆、以及在其他金融机构的存款、贷款等。ASSET主题 — Customer AssetASSET-分类京东: 信贷 白条 积分就可以理解为资产ASSET-分组ASSET-与其他主题的关系...

2021-04-06 17:26:02 456

原创 FS-LDM第五讲-----Internal Org主题(内部组织)

Internal Organization - 内部组织内部组织机构是指金融机构的内部组织和业务单元,如分行、客服中心、支行、储蓄所、部门、销售团队等等。是一种特殊的PARTY(技术上) 包括所有的组织类型 体现内部机构之间复杂的关系 提供层次和矩阵结构 不仅包含自身的内部组织机构,还包括其他的内部组织 和多个主题有关联Internal Org主题 — 业务规则内部组织机构可能是银行内部的组织机构,也有可能是任何一个法人机构当事人的内部组织; 比如对于美团外卖来说了,外...

2021-04-06 16:53:15 611

原创 FS-LDM第十二讲-----Channel主题(渠道)

文章内容来自NCR数据仓库事业部Channel主题:用户通过渠道向金融机构获取关金融机构或金融机构产品信息以及使用金融产品。金融机构通过渠道向用户销售产品或提供服务。 渠道与当事人、产品、帐号等其他实体存在各种关系。 渠道分为若干渠道类型。渠道可以理解为交事双方交互或者交流的通道。这个交事的双发可以是金融机构也可以是用户比如 ATM 、柜台、网银、手机银行、电话、电视、广播、邮件等参照到电商领域渠道有:线上 线下门店等Channel主题 - 业务规则渠道分为若干类型,例如ATM

2021-04-06 15:26:00 728

原创 数据仓库

数据仓库数仓架构 基础架构 Kimball、Inmon 数仓是一种规范 数仓是一种思想 解决方案 元数据管理 数据质量 数据安全 生命周期 数据模型、数据字典 血缘关系 DAG 技术元数据、业务元数据 权限 命名规范 开发规范 流程规范 设计规范

2021-03-05 14:58:59 240 1

原创 flink tableApi和 filink sql ---3.从kafka读取数据 再输出到kafka

sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8package com.tableApiTestimport org.apache.flink.streaming.api.scala._import..

2021-02-16 11:38:55 264

原创 flink tableApi和 filink sql ---2 table api 写入到文件

package com.tableApiTestimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.{DataTypes, Table}import org.apache.flink.table.api.scala._import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema}object FileOutPutTes.

2021-02-15 20:53:40 229

原创 flink tableApi和 filink sql ---1 简单实现

sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8sensor_1,1547718111,11.8package com.tableApiTestimport org.apache.flink.str.

2021-02-14 11:36:47 151

原创 Flink 7 - state

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。 所有用于复杂事件处理的状态机。例如,若在一分钟内收到两个相差20度以上的温度读数,则发出警告,这是有状态的计算。 流与流之间的所有关联操作,以及流与静态表或动态表之间的关联操作,都是有状态的计算。下图展示了无状态流

2021-02-09 18:42:47 127

原创 flink6 - watermark

watermark延迟时间策略 最大的时间-最大的延迟程度>=窗口时 窗口关闭sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8sensor_1,1547718111,11.8p...

2021-02-08 17:53:35 94

原创 flink5 - window

D:\develop_software\netcat-win32-1.12> nc -l -p 7777sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8pac...

2021-02-07 23:02:13 67

原创 flink4 - 输出到文件/kafka/redis/mysql

数据sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8sensor_1,1547718111,11.8package com.sinktestimport java.sql.{Connection,.

2021-02-07 20:30:43 200

原创 flink3 分流 合流 自定义map 自定义filter

文件 sensor_1,1547718199,35.8sensor_6,1547718201,15.4sensor_7,1547718202,6.7sensor_10,1547718205,38.1sensor_1,1547718129,29.8sensor_1,1547718158,5.8sensor_1,1547718140,40.8sensor_1,1547718111,11.8package com.apitestimport org.apache.flin...

2021-02-06 22:07:49 302

原创 Flink2-从集合 文件 kafka 自定义source中读取数据

package com.apitestimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironm.

2021-02-06 15:12:39 353

原创 hive优化最后一版整理

一、物理存储方面hive数据存储的格式有文本格式(TextFile)、二进制序列化文件(sequenceFile)、行列式文件(RCFile)、Apache Parquent 和 优化的行列式文件(ORCFile)ORCFile 和 Parquent,高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。同时 ORCfile对于索引的处理进行了优化Bloom Filter Index 和 Row Group Index 链接http://lxw1234.com/archives/20...

2021-02-01 14:28:40 199

原创 学习链接

算法leecodehttps://leetcode-solution-leetcode-pp.gitbook.io/leetcode-solution/

2021-01-28 18:18:28 60

建模相关知识 建模相关知识

建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识 建模相关知识

2020-09-21

数据仓库基础知识 基础知识

基础知识

2020-05-25

Oracle_ADF_Faces

ADF_Faces

2016-07-27

Oracle WebCenter

Oracle WebCenter

2016-07-27

HBase 0.94.18 API.chm

HBase api

2016-07-27

commons-lang

commons-lang

2016-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除