自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 实时数仓(三)---DWM层

文章目录DWM层和DWS层一、设计设计思路要求梳理二、DWM-访客-UV计算需求分析与思路代码三、DWM-访客-跳出明细计算需求分析与思路跳出计算跳出行为的思路代码四、DWM-商品-订单宽表需求分析与思路代码实现从Kafka的dwd层接收订单和订单明细数据查询Phoenix工具类封装查询维度信息工具类封装优化1旁路缓存代码实现-DimUtil代码实现-RedisUtil优化2:异步查询代码实现-OrderWideApp五、DWM-商品-支付宽表需求分析与思路代码实现-支付实体类-PaymentInfo代码实

2021-08-22 07:01:25 973

原创 实时数仓(二)

文章目录准备业务数据DWD层主要任务接收Kafka数据,过滤空值数据实现动态分流功能把分好的流保存到对应表、主题中代码第一部分(主)代码第二部分HBase全局二级索引分流部分的代码打开三台虚拟机再test.java下创建一个测试类com.atguigu.Test写入以下内容package com.atguigu;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import com.atguigu

2021-08-15 10:22:58 478

原创 clickhouse笔记(入门+部分进阶)

文章目录ClickHouse学习笔记一、ClickHouse的安装准备工作1.确定防火墙处于关闭状态2.CentOS取消打开文件数限制3.安装依赖4.CendtOS取消SELINUX安装1.将文件传到clickhouse目录下,并安装2.修改配置文件简单使用clickhouse二、数据类型整型浮点型Decimal 型字符串枚举类型时间类型数组三、表引擎TinyLogMemoryMergeTreepartition by 分区(可选)primary key 主键(可选)order by(必选)二级索引数据 T

2021-08-08 09:16:43 2175

原创 实时数仓搭建(一)

文章目录实时数仓搭建一、实时数仓介绍普通实时计算和实时数仓比较实时数仓的分层二、实时需求概览离线计算与实时计算的比较实时需求种类日常统计报表或分析图中需要包含当日部分实时数据大屏监控数据预警或提示实时推荐系统三、日志数据模拟模拟日志生成器的使用日志采集模块-本地测试Springboot简介快速搭建Springboot程序gmall2021-logger,采集模拟生成的日志数据开始测试实时数仓搭建一、实时数仓介绍普通实时计算和实时数仓比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得

2021-08-01 11:07:55 1040

原创 flink学习笔记(五)

文章目录八、TableAPI和FlinkSQL简介simple example创建TableEnviroment表(Table)从文件读取数据从kafka读取数据表的查询(Table API)简单查询SQL简单查询简单聚合,统计每一个传感器的温度SQL实现简单聚合表和流的转化将数据输入到文件中更新模式追加(Append)模式撤回(Retract)模式更新插入(Upsert)模式向kafka输入数据时间特性(Time Attributes)定义处理时间(Processing Time)定义事件事件(Event

2021-07-25 09:07:10 331 1

原创 Flink学习笔记(四)

文章目录自定义生成waterMark定义一个周期性的waterMark定义一个断点式的非周期的waterMark五、ProcessFunction API (底层API)KeyedProcessFunctionTimerService 和 定时器(Timers)侧输出流六、状态管理Flink中的状态算子状态(Operator State)算子状态数据结构键控状态(Keyed State)键控状态数据结构状态后端(State Backends)状态总结七、容错机制一致性检查点(checkpoint)从检查点

2021-07-18 10:59:05 118

原创 flink学习笔记(二)

文章目录SinkkafkaWindow API窗口(window)滚动窗口(Tumbling Windows)滑动窗口(Sliding Windows)会话窗口(Session Windows)Window API窗口分配器——window()方法窗口分配器(window assigner)窗口函数(window function)其它可选API问题记录解决方法四、flink中的时间语义和watermark时间语义水位线(WaterMark)特点传递乱序数据的影响关窗使用Sinkkafkapacka

2021-07-12 11:20:58 201

原创 flink学习笔记(一)

文章目录flink学习笔记一、flink简介flink是什么?为什么选择flink?传统数据处理架构事务处理分析处理有状态的流式处理lambda架构flink的主要特点事件驱动(Event-driven)基于**流**的世界观分层API其它特点二、flink运行架构flink运行时的组件JobManagerTaskMangerResourceManagerDispatcher任务提交流程任务提交流程(Yarn)任务调度原理TaskManager和Slots程序与数据流(DataFlow)执行图并行度(Par

2021-07-03 10:39:32 164

原创 业务数据仓库(二)

目录建表:ods层:创建订单表创建订单详情表创建商品表创建用户表创建商品一级分类表创建商品二级分类表创建商品三级分类表创建支付流水表ods层数据导入脚本dwd层创建订单表创建订单详情表创建用户表创建支付流水表创建商品表(增加分类)dwd层数据导入脚本dws层创建用户行为宽表创建脚本ADS层需求一:GMV成交总额建表语句需求二:转化率之用户新鲜度及漏斗分析新增用户占日活跃用户比率(用户新鲜度)建表语句用户行为的漏斗分析建表语句品牌复购率DWS层用户购买商品明细表(宽表)ADS层品牌复购率个用户等级对应的复购率

2021-05-23 10:10:52 185

原创 业务数据仓库(1)

目录业务数据仓库(操作+知识点)一、常见概念1.在电商网站中,衡量一个网站流量的指标2.业务系统中的用户3.数仓中表的分类4.业务数据的同步策略5.范式6.建模7.维度建模的常见模型一、Sqoop的安装1.Sqoop要和hive安装在同一台机器!2.验证:二、造数据1.在导入第三个创建函数的脚本之前,需要调高函数创建的安全级别2.导入数据三、在导入和导出数据时,如果源数据库有字段为NULL值,那么导入和导出后,如何也使用NULL业务数据仓库(操作+知识点)搭建数仓+需求+可视化一、常见概念1.在电商

2021-05-16 14:03:13 841 6

原创 大数据数仓搭建操作合集(二)

文章目录搭建数仓MySql的安装配置root用户的密码高可用的MySQL1.到/usr/share/mysql下找mysql服务端配置的模版2.编辑my.cnf3.重启mysql服务4.在主机上使用root@localhost登录,授权从机可以使用哪个用户登录5.查看主机binlog文件的最新位置6.在从机上执行以下语句(目前主机是103)7.在从机上开启同步线程8.查看同步线程的状态安装hive1.配置2.配置hive的元数据存储在mysql中安装Tez①解压缩,将tez的tar包上传到hdfs②在$HI

2021-05-10 09:32:19 152

原创 大数据数仓搭建操作合集(一)

文章目录大数据的操作过程(纯行为记录)基础准备编写脚本(记得以下bin目录中的脚本编写完成后都要修改权限)xsync:xcall:安装JDK解压分发日志生成(模拟的数据)导入jar包日志和日期的脚本lgdtctHadoop的安装将hadoop的包放到soft目录中core.site.xmlyarn.site.xmlMapred.site.xml为hadoop安装LZO压缩移动添加Zookeeper的安装解压编辑zoo.cfg分发编写zookeeper的启动脚本:KAFKA的安装解压分发Flume安装!!!拦

2021-05-02 14:25:00 211

原创 hadoop集群的搭建

Hadoop集群搭建文章目录Hadoop集群搭建准备需要使用的几个脚本在hadoop103的home下创建bin目录xsync脚本脚本内容xcall脚本脚本内容在三台虚拟机上创建module,和soft目录安装jdk配置JDK环境变量1、先获取JDK路径2、打开/etc/profile文件3、保存后退出4、让修改后的文件生效5、测试JDK是否安装成功可能出现的问题6、分发搭建hadoop集群需要配置的四个文件**core-site.xml****hfds-site.xml****yarn-site.xml

2021-04-25 16:19:49 109

原创 Linux入门笔记

目录Linux文件结构一、linux操作系统管理常用命令1.1 Linux常用命令1.2 命令高级操作命令补全使用历史命令输入/输出重定向管道功能1.3 文件操作命令ls命令cd命令cat命令more命令head命令tail命令cp命令(copy)mv命令(move file)rm命令(remove)touch命令file命令find命令grep命令sort命令mkdir命令rmdir命令二、VI/VIM编译器2.1是什么?2.2一般模式2.3编辑模式2.4指令模式关机重启命令三、用户与组命令管理usera

2021-04-18 14:36:59 2382 4

原创 scala学习笔记

scala语言:完全面向对象的语言(学习笔记)hello worldobject Hello { def main(args: Array[String]): Unit = { println("Hello World!") }}def:声明Unit:返回值(java中的void)//scala源码中包含了main方法,在编译后自动形成了public static void main//scala在编译源码时,会生成两个字节码文件,静态main方法执行另外一个字节码文件中

2021-04-11 15:38:22 1674 2

原创 八数码问题(BFS)

八数码问题解析(BFS搜索)在一个3*3的棋盘上放置编号为1~8的8个方块,每个占一格,另外还有一格空格。与空格相邻的数字方块可以移动到空格里。指定初始输入样例:1 2 3 0 8 4 7 6 51 0 3 8 2 4 7 6 5输出样例:2重点:1.利用康拓展开判重2.合理利用队列3.利用一维坐标和二维坐标#include <iostream>#include <queue>const int LEN = 362880;//康拓展开的状态共有9!=3628

2021-04-09 17:49:57 440

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除