Z_sorrain-CSDN博客

原创数仓项目总结--持续更新中

我司目前根据整体业务共划分为15个能力中心，分别为用户中心、会员中心、商品中心、库存中心、定价中心、活动中心、促销中心、卡券中心、积分中心、订单中心、支付中心、结算中心、评价中心、运输中心、申诉中心。划分数据域采用了业务中心的方式以业务模块进行划分，再添加公共域，共计16个数据域。划分完数据域后，应根据各个数据域中的业务过程去划分总线矩阵。主要是明确两件事：1.确定每个数据域下有那些业务过程;2.业务过程与哪些维度相关。

2024-03-27 22:50:31 188

原创 idea大小写转换快捷键

【代码】idea大小写转换快捷键。

2023-08-24 11:17:49 168

转载分布式和集群的区别

分布式和集群的区别分布式集群总结转载于：https://www.jianshu.com/p/21238ae6107c分布式一个业务分拆多个子业务，部署在不同的服务器上。然后通过一定的通信协议，能够让这些子业务之间相互通信，这就是分布式。本质来说就是将*一个系统拆分为多个子系统并分布到不同设备上*的过程。集群集群就是由多台服务器组成，共享数据存储，对外提供一致的服务。总结分布式集群不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务，部署在不同的服务器

2021-07-13 10:02:04 219

原创决策树及随机森林学习总结

概念：决策树是一个树状结构（二叉树或非二叉树），并且以树状结构表示数据的分类结果决策树是先构建树状模型，然后进行决策。决策树最常用于分类和回归两个方向。决策树的组成：根节点。决策过程从根节点开始。非叶子节点。包含了中间结果值。叶子节点。最终结果值，每一个叶子节点都是唯一的一个类别值或决策值。分支。每个分支代表这个特征属性再某个值域上的输出。决策树学习步骤：特征选择：选择特征的标准是找出局部最优的特征，判断一个特征对于当前数据集的分类效果，也就是按照这个特征进行分类后，数据

2021-03-24 09:01:24 718 1

原创 MySQL各个关键字的执行顺序

2020-12-07 00:12:10 572 4

原创 Kylin学习总结

Kylin官网：https://kylin.apache.org/http://kylin.apache.org/cn/一、概述Apache Kylin是一个开源的、分布式的分析性数据库。Kylin是为了解决MapReduce编码复杂且效率低的问题。Kylin的核心思想是利用空间换取时间，采用预处理方法，列出用户所有可能的查询SQL，提前计算各个维度的聚合结果并持久化保存到HBase,并且Kylin支持复杂的join操作。Kylin支持亚秒级的查询，并且支持高并发。二、Kylin的特点

2020-11-03 13:40:26 639

原创 Redis学习总结

redis官网地址：https://redis.io/中文网站http://www.redis.cn/1.Redis的概述Redis是一个开源的、使用ANSI C语言编写的key-value的NoSQL数据库。Redis将数据缓存在计算机内存中，然后保存到磁盘中，实现数据的持久化。 2.Redis支持的数据类型转载自：https://www.cnblogs.com/williamjie/p/11100897.htmlredis一共支持五种数据类型一、字符串字符串

2020-11-02 23:35:02 123

原创 Flink四大基石——4.Checkpoint容错机制

1.State Vs CheckpointState:维护/存储的是某一个Operator的运行的状态/历史值,是维护在内存中!一般指一个具体的Operator的状态(operator的状态表示一些操作/算子在运行的过程中会产生的一些历史结果,如前面的maxBy底层会维护当前的最大值,也就是会维护一个keyedOperator,这个State里面存放就是maxBy这个Operator中的最大值)State数据默认保存在Java的堆内存中/TaskManage节点的内存中State可以被记录，在失败

2020-10-22 11:09:24 254 2

原创 Flink四大基石——3.State

1.状态的简单概述之前学习的流处理中的基于Socket的入门案例中其实就已经由Flink帮我们实现了对历史数据/历史状态/状态的记录如,启动程序后,在nc -lk 9999中发送hello world会得出:(hello,1)和(world,1)再次发送hello world会得出:(hello,2)和(world,2)说明Flink帮我们记录了历史数据/历史状态/状态也就是说Flink内置的很多操作/API已经实现好了状态/State我们直接使用即可2.有状态计算和无状态计算有状态.

2020-10-22 11:02:55 341

原创 Flink四大基石——2.Time

1.Time的分类EvenTime-事件时间:是数据/事件真真正正产生或发生的时间。IngestionTime-摄入事件：是数据/事件到达流系统的时间。ProcessingTime-处理时间：是被流系统处理计算时的时间。问题：上面三个时间，我们更关注于哪个？答案：更关注于事件时间。因为事件事件更能反应事件的本质，是数据发生或者产生的时间，该时间是不具有延迟性的。2.EventTime的重要性示例1假设，你正在去往地下停车场的路上，并且打算用手机点一份外卖。选好了外卖后，你就用在线支付功.

2020-10-22 10:40:23 514

原创 Flink四大基石——1.window

1. Window为什么需要Window在讲这个问题之前，我们先补充批处理和流处理的知识。批处理:就是对历史数据/有界数据进行处理,如前一天/前7天/前2周/前1/3/6月,前1年…,批处理的任务特点是:跑完一次,就停止,就结束,等待下一次周期调度!而且批处理对于任务完成时间要求不高!一般几个小时内跑完都能够接受!流处理:就是实时的源源不断到来的流式数据/无界数据进行处理!如:实时统计最近5s/1min/1h的数据,特点是程序启动之后会一直运行,等待数据到来!除非遇到异常或手动停止!那么为什.

2020-10-22 10:18:02 255

原创 Flink执行原理

1. Flink名词介绍Dataflow：Flink程序在执行时会被Flink系统映射成数据流模型，这个数据流模型就叫Dataflow.备注：Flink就是通过数据流模型对Operator进行优化。Operator：数据流模型中的每个操作被乘坐Operator,Operator分为Source Operator、Transformation Operator、Sink Operator。Partition：数据流模型是分布式和并行的，执行过程中会形成1—n个分区。Subtask：多个分区任务可

2020-10-19 17:52:09 539

原创 Flink四种集群模式原理

Flink的集群安装模式Local——本地单机模式，学习测试使用Standlone——独立集群模式，flink自带集群，学习测试使用standloneHA——独立集群的高可用模式，flink自带集群，开发测试使用On Yarn——计算机资源同意由Hadoop Yarn管理，生产模式使用1. Local——本地单机模式 2.Standalone——独立集群模式 3.StandloneHA——独立集群高可用模式 &nbsp

2020-10-16 17:41:28 3562

原创 Kafka消费者同步和异步的JavaAPI代码演示

API文档http://kafka.apache.org/10/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html.版本说明消费者API也分为新版和旧版开发中都是直接使用新版本API:org.apache.kafka.clients.consumer.KafkaConsumer注意:1.旧版:有两个级别的API:低级/底层:可以手动维护offset高级/高层:自动维护offsethtt

2020-10-10 17:28:29 772

原创 Kafka架构及其原理

架构图一个kafka集群中包含一个或多个Producer、一个或多个broker、一个或多个ConsumerGrop以及一个Zookeeper集群。kafka通过Zookeeper管理kafka集群配置、leader副本的选举、生产者的负载均衡等。Producer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息。专业术语kafkaCluster : kafka集群，由一个或多个Broker节点组成。Broker : 一个Kafka集

2020-10-09 23:49:04 237

原创 Kafka生产者同步和异步的JavaAPI代码演示

导入Maven的pom依赖 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>1.0.0</version> </dependen

2020-10-08 21:25:52 1116

原创 Kafka使用场景

日志收集日志服务器—>flume – > kafka—>实时/离线处理!在实际工作中，系统和应用程序都会产生大量的日志。为了方便管理这些日志，可以利用Kafka 将这些零散的日志收集到Kafka 集群中，然后通过Kafka 的统一接口将这些数据开放给不同的消费者(Consumer) 。统一接口包括： Hadoop 的应用接口、HBase 的应用接口、ElasticSearch的应用接口等。消息系统线上业务流量很大的应用，可以使用Kafka 作为缓冲，以减少服务端的压力。.

2020-10-08 21:17:29 366

原创消息系统的4大使用场景

为什么要使用消息系统这是最开始的一种架构：大量的请求到达Web网站时，我们可以通过Redis缓存减少数据库对数据的查询压力。但是对于大量的增、删、改等请求，Redis无法完成，所以需要一个专门的消息系统来“缓存”这些请求。一些非法操作会同时发送海量的查询请求，这时如果Redis中没有对应的数据，则这些请求就会被转嫁到Mysql，Mysql会瞬间承受大量的查询压力，来不及将对应的数据发送到Redis中，直接导致数据库宕机。所以也需要一个消息系统来“缓存”这些请求。所以我们就使用下面的架构缓解数据

2020-10-08 21:08:46 814

原创 Linux vim编辑器

一、vim介绍vi 是文本编辑器特点：只能编辑文本内容，不能排版不支持鼠标没有菜单只有命令#打开文件vim /root/shell/a#打开文件并定位到第10行vim /root/shell/a +10二、vi 编辑器三种模式：命令模式vi 文件就是命令模式，使用命令就可以对文件进行编辑，删除，定位，复制，粘贴，替换等操作末行模式执行保存，退出，强制退出，另存为等操作编辑模式编辑文本。三、命令行常用命令命令功能o在

2020-10-02 15:23:54 66

原创 Linux常用命令

1、 Linux目录结构备注： Linux的目录是一个树形结构，不像Windows（森林结构）一样有多个盘符，Linux只有一个根节点，即 / ，所有的文件目录都在这个 / 之下。Linux的 / 下的目录内容：目录作用/bin二进制命令所在的目录/boot系统引导程序所需要的文件目录/dev设备软件目录，磁盘，光驱，/etc系统配置，启动程序/home普通用户的家，目录默认数据存放目录/lib共享库文件和内核模块存放目录/mnt

2020-10-02 15:20:58 126

原创 HBase常用shell操作（未完成）

1.创建表语法： create ‘表名’，‘列簇名’……eg:创建一个学生表，表名为STUDENT，该表由一个列簇为A1create 'STUDENT','A1'备注：create要小写，一个表可以包含若干个列簇（能用一个列簇解决，绝不用两个）2.查看表语法：listeg:查看所有表list3.禁用表/启用表3.1禁用表语法：disable ‘表名’eg:禁用STUDENT表disable 'STUDENT'3.2启用表语法：enable ‘表名’eg:启用STUDEN

2020-09-26 00:07:36 347

原创待补充

–分区SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=10000;set hive.exec.max.dynamic.partitions=100000;set hive.exec.max.created.files=150000;–hive压缩set hive.exec.compres

2020-09-18 21:16:32 588

转载 vscode配置C/C++环境

Visual Studio Code (vscode) 配置 C / C++ 环境　➺➻➸ 主要流程：下载VScode安装cpptools工具下载MinGW配置环境变量使用简单的.cpp文件配置C++环境运行➺➻➸ 详细解读：下载VScode下载链接：https://code.visualstudio.com/Download安装过程：一路下一步，安装很简单，安装路径看个人安装cpptools工具打开vscode，按照以下步骤安装3.下载Min

2020-09-18 20:02:33 2010 2

原创 hive分区与分桶

为什么要分桶？获得更高的查询处理效率在分区数量过于庞大以至于可能导致文件系统崩溃时，或数据集找不到合理的分区字段时，我们就需要使用分桶来解决问题了。分区中的数据可以被进一步拆分成桶，不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。如果另外一个表也按照同样的规则分成了一个个小文件。两

2020-09-12 20:52:07 287

原创 Hadoop基础认知

HDFS：分布式文件存储系统，解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。MAPREDUCE：分布式计算框架，实现在很多机器上分布式并行运算YARN：分布式资源调度平台，帮用户调度大量的mapreduce程序，并合理分配运算资源...

2020-09-05 12:07:01 67

原创 HDFS常用命令

命令格式：#不建议使用，这是1.X架构的命令格式hdfs fs <args> (不建议使用)#建议使用，这是2.X架构的命令格式同时兼容1.X hdfs dfs <args>命令参数所有FS shell命令都将路径URI作为参数。URI格式为scheme://authority/path。对于HDFS，该scheme是hdfs，对于本地FS，该scheme是file。scheme和authority是可选的。如果未指定，则使用配置中指定的默认方案。选项

2020-09-05 11:59:56 442

原创 Zookeeper常用命令

对Zookeeper的操作主要是对Zookeeper目录下的bin目录中的文件进行操作,bin目录中的文件列表如下:-rwxr-xr-x 1 1000 1000 238 2月 20 2014 README.txt-rwxr-xr-x 1 1000 1000 1.9K 2月 20 2014 zkCleanup.sh-rwxr-xr-x 1 1000 1000 1.1K 2月 20 2014 zkCli.cmd-

2020-08-21 17:50:13 204

转载对“由于线程的本质特性,使得你不能捕获从线程中逃逸的异常“的理解

转载自https://www.cnblogs.com/chenfei0801/archive/2013/04/23/3039286.htmlJAVA 线程中的异常捕获在java多线程程序中，所有线程都不允许抛出未捕获的checked exception（比如sleep时的InterruptedException），也就是说各个线程需要自己把自己的checked exception处理掉。这一点是通过java.lang.Runnable.run()方法声明(因为此方法声明上没有throw exceptio

2020-08-09 17:21:27 150

转载解决 idea Alt + Enter 不显示 Creat Test问题

打开设置 file - setting - Editor - Intentions - Java - Declaration - Creat Test如果开着的话就关了重开一下点这个就关了Creat Test了快捷创建Test 还有 ctrl + shift +t

2020-08-09 10:32:21 1206

原创解决idea每次新建maven项目都需要重新配置maven的问题

注意:我使用的是idea2020.1.2X64版本第一步不是选择Settings,不是Settings,不是Settings![在这里插入图片描述](https://img-blog.csdnimg.cn/20200809095938915.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3p4cjAxMzA=,size_16,color_FF

2020-08-09 10:11:14 1041 2

空空如也

空空如也