自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive中lateral view的应用到源码解读

hive中lateral view的执行过程和explode的执行过程

2022-01-20 17:17:26 2295

原创 Azkaban调度任务脚本

两个文件打成zip包一个文件命名:azkaban.projectazkaban-flow-version:2.0另一个文件命名:业务名称.flownodes: - name: mysql_to_hdfs type: command config: command: /home/atguigu/bin/mysql_to_hdfs.sh all ${dt} - name: hdfs_to_ods_log type: command co

2021-05-13 08:33:58 448

原创 mysql基础操作

MYSQL的DDL语句:(1)创建用户主题表DROP TABLE IF EXISTS `ads_user_topic`;CREATE TABLE `ads_user_topic` ( `dt` date NOT NULL, `day_users` bigint(255) NULL DEFAULT NULL, `day_new_users` bigint(255) NULL DEFAULT NULL, `day_new_payment_users` bigint(255) NUL

2021-05-12 07:55:47 204

原创 scala的小知识点

一、标识符命名规则 1、以字母或下划线开头,后接字母、数字、下划线 2、以操作符开头,且只包含操作符(+ - * / # !等) 3、用` `反引号包括任意字符,及时scala的39个关键字也可以...

2021-04-20 09:44:17 167

原创 scala的至简原则

1)至简原则细节(1)return可以省略,Scala会使用函数体的最后一行代码作为返回值(2)如果函数体只有一行代码,可以省略花括号(3)返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略)(4)如果有return,则不能省略返回值类型,必须指定(5)如果函数明确声明unit,那么即使函数体中使用return关键字也不起作用(6)Scala如果期望是无返回值类型,可以省略等号(7)如果函数无参,但是声明了参数列表,那么调用时,小括号,可加可不加(8)如果函数没

2021-04-19 23:14:46 1054

原创 电商系统的数仓分层

数仓分层的目的:一、把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题二、减少重复开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性三、隔离原始数据:不论是数据的异常还是数据敏感性,是真实数据与统计数据解耦开。数仓分层:ODS(Operation Data Store)层:原始数据层。存放原始数据,直接加载原始日志、数据,数据保持原貌不作处理DWD(Data warehouse detail)层:对ODS层数据进行清洗(

2021-04-14 22:10:36 227

原创 Flume实战值时间戳的拦截器

背景:公司属于教育公司,自研一款线上教育app。由于疫情,导致公司业务扩大,数据量剧增。于是公司打算自研一套数据中台。本人有幸负责公司数据采集这一块项目。解决的问题:根据埋点数据会产生一条json日志写到服务器指定的目录下。因此我需要采集到数据传入kafka之中,所以Flume组件成了必选项。本次主要介绍flume基于时间戳的拦截器package com.tuoqing.flume.interceptor;import com.alibaba.fastjson.JSON;import com

2021-04-14 19:44:33 817

原创 hive自定义函数的运用

背景:公司属于世界top500强。旗下有一个子公司从事教育,接触一些儿教育数据。上周公司需要做一个关于教育的数仓,其中有一个指标是关于教师在某线上软件使用情况的统计。具体指标为每个小时,教师的登录情况、备课情况、授课情况。由于每条记录中只有开始时间和结束时间,所以我们只能取到时间段,无法定位到每个小时数。综上:解决方案(三步走):第一步:将开始时间与结束时间进行连接第二步:写hive udtf函数将时间段取出年月日时,并解决时间临界问题第三步:写hive udf函数将时间段取出每个小时数..

2021-04-14 15:38:07 316

原创 Flink之ProcessFunction API

Process Function 用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)

2021-03-10 14:25:32 91

原创 Flink中的状态管理

flink中的状态:算子状态(Operatior)、键控状态(Keyed State)、状态后端(State Backends)状态的定义:1、有一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态2、可以任务状态是一个本地变量,可以被任务的业务逻辑访问3、Flink的状态管理主要是状态一致性、故障处理以及高效储存和访问。注意:1、在Flink中,状态始终与特定算子相关联2、运行时的Flink了解算子的状态,算子需要预先注册其状态算子状态(Operatior):算子状态的

2021-03-09 17:46:46 402

原创 收集问题

1.Flink实时处理异常数据写入mysql数据库,当mysql连续8小时内无操作会导致flink job结束

2021-03-04 08:55:12 144 1

原创 疫情项目数据的维度建模

ODS层表名 来源 备注 ods_epidemic_db_epidemic_user_old eceb_epidemic_user 每日用户填报数据 ods_epidemic_teacher_1 eceb_epidemic_staff 疫情填报职工表 ods_epidemic_student_1 eceb_epidemic_student 疫情填报学生表 ods_epidemic_staff_org_1 eceb_epidemic_s

2021-02-25 10:09:50 377

原创 Flink实时收集疫情异常信息

背景:公司疫情填报系统。公司有A、B两类员工,每日需要填写疫情相关的信息。这批数据存在mysql之中,个人填报信息每天最多存1条记录,多次提交的数据会将最新记录保留。其中主要涉及三张表,一张员工信息表、一张在公司的疫情填报表,一张不在公司的疫情填报表。两张表中关联字段user_id。整体的处理思路:kafka-> flink-> redisflink中清洗思路:kafka数据:MySQL的操作日志。主要有INSERT和DELETE对三张表的操作类型;三张表中员工表作为中间表,进行两两关..

2021-02-05 10:22:50 222

转载 superset的安装部署

https://blog.csdn.net/qq_43565204/article/details/106232918

2021-02-04 13:35:41 168

原创 Flink实时监控mysql数据库

整体架构:mysql -> canal -> kafka - > flink ->终端额外开销:Redis

2021-01-22 09:51:20 1231

原创 Flink链接kafka并解析Json文件(三)

Flink解析Kafka中的Json数据公司的JSON数据格式:{ "data":[ { "user_id":"", "role":"teacher", "stage":"after", "fullname":"徐朝晖", "id_card":null, "sno":"", "gender":"male",...

2021-01-21 17:05:21 2219

原创 Flink链接kafka并解析Json文件(二)

Flink从kafka中消费数据(scala版本):pom文件:<!-- Flink 的scala依赖 --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.10.1</version></dependency>...

2021-01-21 16:35:22 469

原创 Flink链接kafka并解析Json文件(一)

背景:某小型互联网公司每日的疫情填报Flink消费Kafka中的Json数据遇到的问题:Flink的jar包上传Flink服务器报错web页面报错:2021-01-1910:26:42,437INFOorg.apache.kafka.common.utils.AppInfoParser-Kafkaversion:0.11.0.22021-01-1910:26:42,438INFOorg.apache.kafka.common.ut...

2021-01-21 16:23:42 2049

原创 数仓项目之财务年终账单

三、项目开发(一)、开发周期数仓开发人员:XXX(项目经理) 指标分析 指标检测 维度建模 逻辑测试 预计时间(天) 3 12 3 实际时间(天) 5 12 5 ...

2020-12-28 17:31:40 378

原创 Hive中的条件函数

HIVE中分支结构条件函数:if,nvl,case when then else end基本定义: if(判断条件,true,false), nvl(true,false), case 列名 when 条件1then 结果1 else 结果2 end嵌套使用: if: one.判断条件中可结合and、or。 two.true中可在做if嵌套,false中也可以做if嵌套(存疑) nvl: one:用于将null值转换,...

2020-12-14 09:24:21 604 1

原创 Excle导入集群及时间相减去天数

Excle导入集群1)将Excle文件转换成txt文件,注意转换前后的编码方式。通常使用utf-82)将转换后的txt文件导入集群。并根据txt文件中的字段创建Hive表3)加载数据到hive中。loaddata inpath '/user/test.txt' into table ads_test;时间字段相减取天数由于公司数据中时间的格式是yyyy/M/dd,其中月份有取值在(1~12)。主要业务是求出当前时间和入职时间的差值1)将数据库中的时间按着‘/’切分。split('/.

2020-11-19 17:18:24 77

原创 Java基础——基本数据类型

1、基本数据类型(8种):内存空间保存的是数值本身数值型: 1)整数 byte 范围 一个字节 -128~127 (1000 0000 ~0111 1111) short范围 二个字节 -32768~32767 (1000 0000 0000 0000 ~ 0111 1111 1111 1111) Int 范围 四个字节 -20多亿~20...

2020-03-26 17:38:55 80

原创 Java基础细节

关于Java基础中的注意细节:一、关于JDK 和 JREJDK:Java Development Kit 的缩写,即Java开发工具包JRE:Java Routime Environment 的缩写,即Java运行环境;JDK = JRE + 其他工具包;二、命令行基本操作dir:directory缩写,即读取当前目录中的文件;md:make directory缩...

2020-03-11 11:43:10 127

原创 SQL server 2008卸载出错

卸载SQL server2008:控制面板——>卸载程序(点击SQL server 2008(64bit))——>删除;然后在删除C:\Program Files\Microsoft SQL Server 和C:\Program Files (x86)\Microsoft SQL Server 二个文件夹卸载失败原因一:属性不匹配。存在属性(Directory,Archiv...

2020-03-11 11:23:07 986 1

原创 基于C#的Windows高级编程的酒店管理系统(三)

上一篇:基于C#的Windows高级编程的酒店管理系统(二)第四个问题:验证码的实现我用的验证码是自己写的一个类。这种代码满天飞,所以作为一个小白我的代码就分享给大家using System;using System.Drawing;using System.Drawing.Imaging;using System.Drawing.Drawing2D;using System.IO;/...

2018-06-05 23:56:25 1973 8

原创 基于C#的Windows高级编程的酒店管理系统(二)

上一篇基于C#的Windows高级编程的酒店管理系统(一)该任务中的难点:一、多个界面交互问题二、窗口的皮肤渲染三、数据库的移植四、验证码的实现五、listView加载数据库与DataGridView加载数据库六、菜单栏的运用上面这些儿问题仅仅是我在编程的时候遇到的麻烦。可能有些儿算不上麻烦吧!就当给自己这一学年的总结第一个问题的解决方法很多,我习惯在建立窗口的时候增加一个形参,然后进行窗口之间的...

2018-06-05 23:25:30 3000 4

原创 基于C#的Windows高级编程的酒店管理系统(一)

系统要求:(1) 主界面窗体需含有菜单栏,状态栏或工具栏。(2) 窗体需要多个种类的控件使用(如:文本框、组合框、单选框、复选框、图像、DatagridView控件、TreeView控件、ListView控件、通用对话框控件或日期控件等等,详见第5和6章)。(3) 对于用户管理这块,必须全部使用以下模式完成,增加,修改和删除。 (5) 对于查询建议做成以下模式。题目:酒店管理系统最终成果:登录界面...

2018-06-05 22:46:16 10433 35

hadoop-lzo-master.zip

lzo创建索引的压缩包

2021-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除