爱吃甜食_-CSDN博客

OKR很难吗？用一张图告诉你OKR的定义、操作方法、谷歌实操步骤等，让你快速对OKR有一个全面了解。什么是OKR中文是目标与关键结果法，是Object ives and Key Results的英文缩写。定义：这是一种由公司、团队和个人协同制定目标的方法，由英特尔公司创始人安迪·葛洛夫（AndyGrove）发明，并由约翰·道尔（JohnDoerr）引入谷歌并发扬光大。O表示一个目标，即你想达到什么。KR表示多个可量化的关键结果，即你想怎么做。起源：来自德鲁克的目标管理和自我控制，他发现人

2022-05-23 14:03:37 608

原创如何保证数据产出质量简述

如何保证数据产出质量简述数据质量的评估数据质量的保障数据产出流程&机制revire机制数据质量保障中的工具&规则SQLSCANDQC基线数据质量的评估数据质量可以从一下几个角度进行评估：完整性：完整性是指数据的记录和信息是否完整，是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段信息的缺失，两者都会造成统计结果不准确。准确性准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如，成绩单中分数出现负数或订单中出现错误的买家信息等，这些数据都

2021-12-26 12:57:56 1479

原创数据库数据采集

常见的三种采集方案直连同步通过API和动态链接同步数据库数据，会对源数据库产生较大影响。不建议直接同步主数据库数据文件同步同步源系统生成的文本文件。文本文件一般由单独的服务器存储为了保证数据质量，处理源数据，还需要校验文件数据库日志解析同步（一般采用此种方式）通过同步、解析数据库日志文件系统进行数据同步。可以实现毫秒级延迟且...

2021-12-13 01:40:07 4452

转载 Flume Memory Channel调优

Flume Memory Channel调优原文地址读后感原文版本一版本二版本三版本四版本五原文地址原文地址读后感通过加大batch size和transaction size来提高source到channel和channel到sink的吞吐量通过加大capactiy来提高channel的容量，防止频繁填充率过高阻塞通过增加多个channel来减小每个channel的填充量，减小flume节点宕机引起的数据丢失此外，还可以修改flume-env.sh中的Xms和Xmx来增加flume的JVM

2020-12-06 13:12:45 1320

转载 Redis哨兵模式（转载）

Redis哨兵模式概述原文地址概述Sentinel(哨兵)是用于监控redis集群中Master状态的工具，是Redis 的高可用性解决方案，sentinel哨兵模式已经被集成在redis2.4之后的版本中。sentinel是redis高可用的解决方案，sentinel系统可以监视一个或者多个redis master服务，以及这些master服务的所有从服务；当某个master服务下线时，自动将该master下的某个从服务升级为master服务替代已下线的master服务继续处理请求。sentinel

2020-11-21 23:41:18 119

原创 Redis 主从架构

Redis主从架构读后感摘要原文地址读后感摘要Redis集群采取主从架构，采取读写分离的设计方案Master负责写slaves负责读Redis集群可以有多个主从，一个服务器可以同时兼任主从两种角色。即本身作为某个主从的从，同时作为另一个主从的主。如下图：Redis主从同步方式有两种：增量同步快照同步原文地址原文地址...

2020-11-21 23:37:11 144

原创 Redis发布订阅概念

发布订阅发布订阅哨兵模式发布订阅Redis 发布订阅 (pub/sub) 是一种消息通信模式：发送者 (pub) 发送消息，订阅者 (sub) 接收消息。Redis 客户端可以订阅任意数量的频道。下图展示了频道 channel1 ，以及订阅这个频道的三个客户端 —— client2 、 client5 和 client1 之间的关系：当有新消息通过 PUBLISH 命令发送给频道 channel1 时，这个消息就会被发送给订阅它的三个客户端：哨兵模式...

2020-11-21 23:28:33 238 1

原创 Redis缓存穿透，缓存击穿，缓存雪崩

缓存穿透，缓存击穿，缓存雪崩缓存穿透解决方案缓存雪崩解决方案缓存击穿解决方案原文引用缓存穿透缓存穿透的概念很简单，用户想要查询一个数据，发现redis内存数据库没有，也就是缓存没有命中，于是向持久层数据库查询。发现也没有，于是本次查询失败。当用户很多的时候，缓存都没有命中，于是都去请求了持久层数据库。这会给持久层数据库造成很大的压力，这时候就相当于出现了缓存穿透。在流量大时，可能DB就挂掉了，要是有人利用不存在的key频繁攻击我们的应用，这就是漏洞。这里需要注意和缓存击穿的区别，缓存击穿，是指一个

2020-11-21 23:22:18 102

原创 Redis-2 redis持久化简述

redis持久化基本概念持久化方案RDB持久化方案RDB持久化配置RDB触发条件AOF持久化方案AOF写数据三种策略AOF重写AOF实时写入流程AOF重写流程AOF功能开启AOF相关配置RDB和AOF对比从持久化中恢复数据基本概念由于Redis是一个内存数据库，所有数据都是存在内存中，容易丢失，因此需要进行定期的持久化来防止数据丢失，确保数据的安全性。所谓持久化，简单来讲，就是将数据以某种形式持久化到磁盘上。持久化方案Redis支持两种持久化方案：RDB持久化方案AOF持久化方案RDB和

2020-11-21 22:53:59 201

原创 Redis-1 redis基本概念、基本数据类型、基本操作命令

redis基本概念redis 概念及使用场景redis基本数据类型Redis数据结构的底层实现redis基本操作命令String类型Redis中对可以的操作redis当中对list列表的操作Redis操作set集合Redis 中的HyperLogLogredis 概念及使用场景Redis是基于C编写的key-value存储系统，是一种NOSQL系统。Redis特点：高效性：Redis可以实现每秒百万级别次数的读取和十万级别次数的写入。原子性：Redis所有操作都是原子性的，并支持对几个操作合并后

2020-11-21 16:20:35 125

原创机器学习基本概念

机器学习基本概念样本分类数据集机器学习分类监督学习非监督学习函数机器学习基本流程最优化问题求解机器学习的挑战基本概念简单来说，机器学习就是让计算机具有基于数据的学习能力。通过学习，能对从未进过的数据进行有效的预测。样本分类有标签的样本：记录的集合， ????={????1,????2,…,????????} ；无标签的样本：样例的集合， ????={(????1,????1),(????2,????2),…,(????????,????????)} 。数据集训练样本可以根据用途分为训

2020-11-18 00:02:28 305

转载 Jedis使用教程完整版（转载）

Jedis使用教程完整版读后感概述基本使用连接池使用高可用连接客户端分片小结读后感简介Jedis是Redis官方推荐的Java链接工具资源的创建通过Jedis自带的线程池创建资源Jedis一般使用JedisPool线程池链接Redis为了实现高可用，通过使用JedisSentinelPool来链接Redis创建完之后通过pool.getResource来获得资源资源的回收使用完后，需要通过jedis.close();和pool.close();将资源还给连接池Jedi

2020-11-16 14:14:32 1686

原创 flink on yarn工作提交流程及三层图概述

flink on yarn工作提交流程示意图flink三层图概述示意图流程如下：Client向Dispatch而发起请求，Dispatch而向yarn提交jobYarn的NN创建一个container，启动Application Master（AM）ApplicationMaster在本地启动一个Resource Manager和Job ManagerJob manager根据StreamGraph生成的ExecutionGraphy以及物理执行计划向Flink Resource Ma

2020-11-10 23:21:16 844

原创 flink SQL浅析

flink SQL解析Flink table/SQL架构演变flink SQL的工作机制SQL实现详述：Flink table/SQL架构演变Flink1.9之前，批处理和流处理有以下几点不同各自独立的API（流处理DataStream，批处理DataSet）各自不同的执行计划解析过程各自不同的错的跟过程因此，没有批流一体的概念，面向用户不友好。如下图所示：Flink1.9引入了blink planner将批SQL处理作为流SQL处理的特例。Flink Planner用来兼容

2020-11-09 23:26:45 620

原创 flink实现exactly-once

flink实现exactly-once前言前言exactly-once，即实现一次且仅一次。可分为框架内实现和端对端实现。

2020-11-08 19:43:33 748

转载基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践（转载）

基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践原文背景背景介绍流平台通用框架为什么选 Kafka？为什么选择 Flink？Kafka + Flink 流计算体系网易云音乐使用 Kafka 的现状Flink+Kafka 平台化设计Kafka 在实时数仓中的应用在解决问题中发展Flink + Kafka 在 Lambda 架构下的运用问题&改进多 Sink 下 Kafka Source 重复消费问题同交换机流量激增消费计算延迟问题Q & A原文简介：本文由网易云音乐实时计

2020-11-01 22:46:59 275

原创 HBase的一致性

HBase的一致性首先来理解下一致性HBase是强一致性系统Hbase是一个强一致性数据库，不是“最终一致性”数据库，官网给出的介绍：“Strongly consistent reads/writes: HBase is not an “eventually consistent” DataStore. This makes it very suitable for tasks such as high-speed counter aggregation.”这里要先提一下分布式系统的CAP原理:

2020-11-01 17:41:08 1566

原创强一致性、弱一致性、顺序一致性、最终一致性概述

通俗易懂强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性的区别与联系什么是一致性一致性的种类导致一致性出现的原因强一致性与弱一致性强一致性两个要求弱一致性强一致性和弱一致性举例顺序一致性最终一致性最终一致性的种类什么是一致性在分布式系统中，一致性（Consistency）是指多副本（Replications）问题中的数据一致性。一致性的种类事务一致性数据一致性本文主要讨论数据一致性（事务一致性指ACID）导致一致性出现的原因数据的分布式存储是导致出现一致性的唯一原

2020-11-01 17:10:37 7595

转载 Schtasks 计划任务参数详解

[注意：a. 命令行创建的计划任务有空格而不能创建的情况的解决方案：在含有看空格的参数或则路径前面加上 \"进行转义，这样就okdemo: schtasks /create/sc minute/mo30 /tn "finaltest" /tr \"d:program file\smth.bat" \"'20''302'"...

2020-10-18 23:00:50 2841

原创 hadoop shell常用命令

hadoop shell操作命令Shell常用命令1.2、hdfs与getconf结合使用1.3、hdfs与dfsadmin结合使用1.4、hdfs与fsck结合使用1.5、其他命令Shell常用命令HDFS命令有两种风格：hadoop fs开头的hdfs dfs开头的两种命令均可使用，效果相同1.如何查看hdfs或hadoop子命令的帮助信息，如ls子命令 hdfs dfs -help ls hadoop fs -help ls #两个命令等价2.查看hdfs文件系统中指定目录的文

2020-10-18 22:59:47 1896

原创 hadoop 多集群拷贝快照管理回收站管理

多个集群之间的数据拷贝在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop自带也有命令可以帮我们实现这个功能1、本地文件拷贝scpcd /kkb/softscp -r jdk-8u141-linux-x64.tar.gz hadoop@node02:/kkb/soft2、集群之间的数据拷贝distcpcd /kkb/install/hadoop-2.6.0-cdh5.14.2/

2020-10-18 22:59:02 226

转载（转载）可能是最易懂的Hbase架构原理解析

https://developer.51cto.com/art/201904/595698.htm

2020-10-18 21:11:29 69

原创 hadoop常用命令

1.1、shell操作命令HDFS命令有两种风格：hadoop fs开头的hdfs dfs开头的两种命令均可使用，效果相同如何查看hdfs或hadoop子命令的帮助信息，如ls子命令hdfsdfs-helplshadoopfs-helpls#两个命令等价查看hdfs文件系统中指定目录的文件列表。对比linux命令lshdfsdfs-ls/hadoopfs-ls/hdfsdfs-ls-R/在hdfs文件系统中创建文件hd...

2020-10-18 21:00:28 181

原创 Spark 内存不足错误码

java.lang.OutOfMemoryErrorExecutorLostFailureExecutor exit code 为143executor losthearbeat time outshuffle file lost如果遇到以上问题，很有可能就是内存除了问题，可以先尝试增加内存如果还是解决不了，尝试数据倾斜调优...

2020-10-18 20:56:10 501

原创 IDEA使用maven创建项目后，无法正确使用库（个人笔记）

IDEA忽略了maven库，在设置中修改一下即可

2020-10-12 00:01:13 286

原创 flink CEP示例

CEP示例三分钟时间内，出现三次及以上的温度高于40度就算作是异常温度，进行报警输出创建订单之后15分钟之内一定要付款，否则就取消订单三分钟时间内，出现三次及以上的温度高于40度就算作是异常温度，进行报警输出场景介绍现在工厂当中有大量的传感设备，用于检测机器当中的各种指标数据，例如温度，湿度，气压等，并实时上报数据到数据中心，现在需要检测，某一个传感器上报的温度数据是否发生异常。异常的定义三分钟时间内，出现三次及以上的温度高于40度就算作是异常温度，进行报警输出测试数据

2020-10-01 21:54:35 976

原创 flink-22 flink复杂事物处理机制CEP

flink复杂事物处理机制CEPCEP概念CEP的主要特点Pattern API输入流的创建Pattern的定义设置循环次数定义触发条件模式序列注意Pattern检测选取结果通过select抽取正常事件通过flatSelect抽取正常事件通过select抽取延迟事件CEP示例使用state实现使用CEP编程实现官网CEP概念CEP是Complex Event Processing三个单词的缩写，表示复杂事件处理，是一种基于流处理的技术，CEP是Flink专门为我们提供的一个基于复杂事件监测处理的库，C

2020-09-30 11:29:02 726

原创 flink-21 flink之table和SQL

flink之table和SQLtable与SQL的基本介绍为什么需要SQL开发环境构建TableEnvironmentTable API创建 Table从文件中创建 Table（静态表）从DataStream中创建 Table（动态表）**table与SQL的基本介绍在Spark中有DataFrame这样的关系型编程接口，因其强大且灵活的表达能力，能够让用户通过非常丰富的接口对数据进行处理，有效降低了用户的使用成本。Flink也提供了关系型编程接口 Table API 以及基于Table API 的

2020-09-28 20:43:03 1999

原创 flink-20 watermark机制

watermark机制watermark概念watermark作用watermark原理watermark使用的三种情况watermark概念通常情况下由于网络或者系统等外部因素影响下，事件数据往往不能及时传输至FLink系统中，导致系统的不稳定而造成数据乱序到达或者延迟达到等问题，因此需要有一种机制能够控制数据处理的进度。具体来讲，在创建一个基于时间的window后，需要确定属于该window的数据元素是否已经全部到达，确定后才可以对window中的所有数据做计算处理（如汇总、分组），如果数据并没

2020-09-25 22:49:52 320

原创 flink-19 flink之Time概念

flink之Time概念flink中Time的概念EventTimeIngestTimeProcessingTime（默认时间）三种时间的综合比较设置 Time 类型示例：ProcessWindowFunction实现时间确定flink中Time的概念对流失数据处理，最大的特点是数据上具有时间的属性特征flink根据时间产生的位置不同，可以将时间区分为三种时间概念Event Time（事件生成时间）事件产生的时间，它通常由事件中的时间戳描述Ingestion time（事件接入时间）

2020-09-24 20:04:08 154

原创 flink-18 flink之windows窗口

flink之windows窗口概念窗口的类型滚动窗口（tumbling windows）滑动窗口（sliding windows）会话窗口窗口（session windows）窗口应用示例窗口数据的集合统计增量聚合统计7.3.2 全量聚合统计概念把数据想象成一种流，窗口在流上滑动，显示指定时间段或指定个数的数据。即windows是一种可以把无限无数据切割为有限数据块的手段应用场景对于流式处理，如果我们需要求取总和，平均值，或者最大值，最小值等，是做不到的，因为数据一直在源源不断的产生，即数据是没有

2020-09-24 16:24:08 287

原创 flink-17 flink集成kafka

flink集成kafka前言kafka作为flink的sourcekafka作为flink的sinkpom依赖官网前言Flink提供了一个特有的kafka connector去读写kafka topic的数据。flink消费kafka数据，并不是完全通过跟踪kafka消费组的offset来实现去保证exactly-once的语义，而是flink内部去跟踪offset和做checkpoint去实现exactly-once的语义，而且对于kafka的partition，Flink会启动对应的并行度去处理ka

2020-09-24 01:44:14 862

原创 flink-16 checkpoint

checkpointcheckpoint概念checkpoint的前提checkpoint步骤配置checkpoint重启策略从checkpoint恢复数据checkpoint保存多个历史版本save checkpoint保存数据checkpoint概念为了保证state的容错性，flink需要对state进行checkpointcheckpoint是flink实现容错机制最核心的功能，它能根据配置周期性的基于Stream各个operator/task的状态来生成快照，从而将这些状态数据定期持久化存储

2020-09-23 22:18:58 715 1

IDEA快捷键大全.zip

工程文件设置输出

MFC圆形进度条（ProgressContrl）如何实现？

哪位大神帮忙看看这是MFC的什么控件