自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(315)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

转载 切片&切块、钻取、旋转

切片&切块、钻取、旋转

2022-06-29 19:47:12 1694

转载 OKR概述

OKR很难吗?用一张图告诉你OKR的定义、操作方法、谷歌实操步骤等,让你快速对OKR有一个全面了解。什么是OKR中文是目标与关键结果法,是Object ives and Key Results的英文缩写。 定义:这是一种由公司、团队和个人协同制定目标的方法,由英特尔公司创始人安迪·葛洛夫(AndyGrove)发明,并由约翰·道尔(JohnDoerr)引入谷歌并发扬光大。O表示一个目标,即你想达到什么。KR表示多个可量化的关键结果,即你想怎么做。 起源:来自德鲁克的目标管理和自我控制,他发现人

2022-05-23 14:03:37 608

原创 如何保证数据产出质量简述

如何保证数据产出质量简述数据质量的评估数据质量的保障数据产出流程&机制revire机制数据质量保障中的工具&规则SQLSCANDQC基线数据质量的评估数据质量可以从一下几个角度进行评估:完整性:完整性是指数据的记录和信息是否完整,是否存在数据缺失情况。数据缺失主要包括记录的缺失和具体某个字段信息的缺失,两者都会造成统计结果不准确。准确性准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或订单中出现错误的买家信息等,这些数据都

2021-12-26 12:57:56 1479

原创 数据库数据采集

常见的三种采集方案 直连同步 通过API和动态链接同步数据库数据,会对源数据库产生较大影响。不建议直接同步主数据库 数据文件同步 同步源系统生成的文本文件。 文本文件一般由单独的服务器存储 为了保证数据质量,处理源数据,还需要校验文件 数据库日志解析同步(一般采用此种方式) 通过同步、解析数据库日志文件系统进行数据同步。可以实现毫秒级延迟且...

2021-12-13 01:40:07 4452

转载 Flume Memory Channel调优

Flume Memory Channel调优原文地址读后感原文版本一版本二版本三版本四版本五原文地址原文地址读后感通过加大batch size和transaction size来提高source到channel和channel到sink的吞吐量通过加大capactiy来提高channel的容量,防止频繁填充率过高阻塞通过增加多个channel来减小每个channel的填充量,减小flume节点宕机引起的数据丢失此外,还可以修改flume-env.sh中的Xms和Xmx来增加flume的JVM

2020-12-06 13:12:45 1320

转载 Redis哨兵模式(转载)

Redis哨兵模式概述原文地址概述Sentinel(哨兵)是用于监控redis集群中Master状态的工具,是Redis 的高可用性解决方案,sentinel哨兵模式已经被集成在redis2.4之后的版本中。sentinel是redis高可用的解决方案,sentinel系统可以监视一个或者多个redis master服务,以及这些master服务的所有从服务;当某个master服务下线时,自动将该master下的某个从服务升级为master服务替代已下线的master服务继续处理请求。sentinel

2020-11-21 23:41:18 119

原创 Redis 主从架构

Redis主从架构读后感摘要原文地址读后感摘要Redis集群采取主从架构,采取读写分离的设计方案Master负责写slaves负责读Redis集群可以有多个主从,一个服务器可以同时兼任主从两种角色。即本身作为某个主从的从,同时作为另一个主从的主。如下图:Redis主从同步方式有两种:增量同步快照同步原文地址原文地址...

2020-11-21 23:37:11 144

原创 Redis发布订阅概念

发布订阅发布订阅哨兵模式发布订阅Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者 (sub) 接收消息。Redis 客户端可以订阅任意数量的频道。下图展示了频道 channel1 , 以及订阅这个频道的三个客户端 —— client2 、 client5 和 client1 之间的关系:当有新消息通过 PUBLISH 命令发送给频道 channel1 时, 这个消息就会被发送给订阅它的三个客户端:哨兵模式...

2020-11-21 23:28:33 238 1

原创 Redis缓存穿透,缓存击穿,缓存雪崩

缓存穿透,缓存击穿,缓存雪崩缓存穿透解决方案缓存雪崩解决方案缓存击穿解决方案原文引用缓存穿透缓存穿透的概念很简单,用户想要查询一个数据,发现redis内存数据库没有,也就是缓存没有命中,于是向持久层数据库查询。发现也没有,于是本次查询失败。当用户很多的时候,缓存都没有命中,于是都去请求了持久层数据库。这会给持久层数据库造成很大的压力,这时候就相当于出现了缓存穿透。在流量大时,可能DB就挂掉了,要是有人利用不存在的key频繁攻击我们的应用,这就是漏洞。这里需要注意和缓存击穿的区别,缓存击穿,是指一个

2020-11-21 23:22:18 102

原创 Redis-2 redis持久化简述

redis持久化基本概念持久化方案RDB持久化方案RDB持久化配置RDB触发条件AOF持久化方案AOF写数据三种策略AOF重写AOF实时写入流程AOF重写流程AOF功能开启AOF相关配置RDB和AOF对比从持久化中恢复数据基本概念由于Redis是一个内存数据库,所有数据都是存在内存中,容易丢失,因此需要进行定期的持久化来防止数据丢失,确保数据的安全性。所谓持久化,简单来讲,就是将数据以某种形式持久化到磁盘上。持久化方案Redis支持两种持久化方案:RDB持久化方案AOF持久化方案RDB和

2020-11-21 22:53:59 201

原创 Redis-1 redis基本概念、基本数据类型、基本操作命令

redis基本概念redis 概念及使用场景redis基本数据类型Redis数据结构的底层实现redis基本操作命令String类型Redis中对可以的操作redis当中对list列表的操作Redis操作set集合Redis 中的HyperLogLogredis 概念及使用场景Redis是基于C编写的key-value存储系统,是一种NOSQL系统。Redis特点:高效性:Redis可以实现每秒百万级别次数的读取和十万级别次数的写入。原子性:Redis所有操作都是原子性的,并支持对几个操作合并后

2020-11-21 16:20:35 125

原创 机器学习基本概念

机器学习基本概念样本分类数据集机器学习分类监督学习非监督学习函数机器学习基本流程最优化问题求解机器学习的挑战基本概念简单来说,机器学习就是让计算机具有基于数据 的学习能力。通过学习,能对从未进过的数据进行有效的预测。样本分类有标签的样本:记录的集合, ????={????1,????2,…,????????} ;无标签的样本:样例的集合, ????={(????1,????1),(????2,????2),…,(????????,????????)} 。数据集训练样本可以根据用途分为训

2020-11-18 00:02:28 305

转载 Jedis使用教程完整版(转载)

Jedis使用教程完整版读后感概述基本使用连接池使用高可用连接客户端分片小结读后感简介Jedis是Redis官方推荐的Java链接工具资源的创建通过Jedis自带的线程池创建资源Jedis一般使用JedisPool线程池链接Redis为了实现高可用,通过使用JedisSentinelPool来链接Redis创建完之后通过pool.getResource来获得资源资源的回收使用完后,需要通过jedis.close();和pool.close();将资源还给连接池Jedi

2020-11-16 14:14:32 1686

原创 flink on yarn工作提交流程及三层图概述

flink on yarn工作提交流程示意图flink三层图概述示意图流程如下:Client向Dispatch而发起请求,Dispatch而向yarn提交jobYarn的NN创建一个container,启动Application Master(AM)ApplicationMaster在本地启动一个Resource Manager和Job ManagerJob manager根据StreamGraph生成的ExecutionGraphy以及物理执行计划向Flink Resource Ma

2020-11-10 23:21:16 844

原创 flink SQL浅析

flink SQL解析Flink table/SQL架构演变flink SQL的工作机制SQL实现详述:Flink table/SQL架构演变Flink1.9之前,批处理和流处理有以下几点不同各自独立的API(流处理DataStream,批处理DataSet)各自不同的执行计划解析过程各自不同的错的跟过程因此,没有批流一体的概念,面向用户不友好。如下图所示:Flink1.9引入了blink planner将批SQL处理作为流SQL处理的特例。Flink Planner用来兼容

2020-11-09 23:26:45 620

原创 flink实现exactly-once

flink实现exactly-once前言前言exactly-once,即实现一次且仅一次。可分为框架内实现和端对端实现。

2020-11-08 19:43:33 748

转载 基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践(转载)

基于 Flink + Kafka 的实时数仓在网易云音乐的建设实践原文背景背景介绍流平台通用框架为什么选 Kafka?为什么选择 Flink?Kafka + Flink 流计算体系网易云音乐使用 Kafka 的现状Flink+Kafka 平台化设计Kafka 在实时数仓中的应用在解决问题中发展Flink + Kafka 在 Lambda 架构下的运用问题&改进多 Sink 下 Kafka Source 重复消费问题同交换机流量激增消费计算延迟问题Q & A原文简介:本文由网易云音乐实时计

2020-11-01 22:46:59 275

原创 HBase的一致性

HBase的一致性首先来理解下一致性HBase是强一致性系统Hbase是一个强一致性数据库,不是“最终一致性”数据库,官网给出的介绍:“Strongly consistent reads/writes: HBase is not an “eventually consistent” DataStore. This makes it very suitable for tasks such as high-speed counter aggregation.”这里要先提一下分布式系统的CAP原理:

2020-11-01 17:41:08 1566

原创 强一致性、弱一致性、顺序一致性、最终一致性概述

通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系什么是一致性一致性的种类导致一致性出现的原因强一致性 与 弱一致性强一致性两个要求弱一致性强一致性和弱一致性举例顺序一致性最终一致性最终一致性的种类什么是一致性在分布式系统中,一致性(Consistency)是指多副本(Replications)问题中的数据一致性。一致性的种类事务一致性数据一致性本文主要讨论数据一致性(事务一致性指ACID)导致一致性出现的原因数据的分布式存储是导致出现一致性的唯一原

2020-11-01 17:10:37 7595

转载 Schtasks 计划任务参数 详解

[注意:a. 命令行创建的计划任务有空格而不能创建的情况的解决方案:在含有看空格的参数或则路径前面加上 \"进行转义,这样就okdemo: schtasks /create/sc minute/mo30 /tn "finaltest" /tr \"d:program file\smth.bat" \"'20''302'"...

2020-10-18 23:00:50 2841

原创 hadoop shell常用命令

hadoop shell操作命令Shell常用命令1.2、hdfs与getconf结合使用1.3、hdfs与dfsadmin结合使用1.4、hdfs与fsck结合使用1.5、 其他命令Shell常用命令HDFS命令有两种风格:hadoop fs开头的hdfs dfs开头的两种命令均可使用,效果相同1.如何查看hdfs或hadoop子命令的帮助信息,如ls子命令 hdfs dfs -help ls hadoop fs -help ls #两个命令等价2.查看hdfs文件系统中指定目录的文

2020-10-18 22:59:47 1896

原创 hadoop 多集群拷贝 快照管理 回收站管理

多个集群之间的数据拷贝在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能1、本地文件拷贝scpcd /kkb/softscp -r jdk-8u141-linux-x64.tar.gz hadoop@node02:/kkb/soft2、集群之间的数据拷贝distcpcd /kkb/install/hadoop-2.6.0-cdh5.14.2/

2020-10-18 22:59:02 226

转载 (转载)可能是最易懂的Hbase架构原理解析

https://developer.51cto.com/art/201904/595698.htm

2020-10-18 21:11:29 69

原创 hadoop常用命令

1.1、shell操作命令HDFS命令有两种风格:hadoop fs开头的hdfs dfs开头的两种命令均可使用,效果相同如何查看hdfs或hadoop子命令的帮助信息,如ls子命令hdfsdfs-helplshadoopfs-helpls#两个命令等价查看hdfs文件系统中指定目录的文件列表。对比linux命令lshdfsdfs-ls/hadoopfs-ls/hdfsdfs-ls-R/在hdfs文件系统中创建文件hd...

2020-10-18 21:00:28 181

原创 Spark 内存不足错误码

java.lang.OutOfMemoryErrorExecutorLostFailureExecutor exit code 为143executor losthearbeat time outshuffle file lost如果遇到以上问题,很有可能就是内存除了问题,可以先尝试增加内存如果还是解决不了,尝试数据倾斜调优...

2020-10-18 20:56:10 501

原创 IDEA使用maven创建项目后,无法正确使用库(个人笔记)

IDEA忽略了maven库,在设置中修改一下即可

2020-10-12 00:01:13 286

原创 flink CEP示例

CEP示例三分钟时间内,出现三次及以上的温度高于40度就算作是异常温度,进行报警输出创建订单之后15分钟之内一定要付款,否则就取消订单三分钟时间内,出现三次及以上的温度高于40度就算作是异常温度,进行报警输出场景介绍现在工厂当中有大量的传感设备,用于检测机器当中的各种指标数据,例如温度,湿度,气压等,并实时上报数据到数据中心,现在需要检测,某一个传感器上报的温度数据是否发生异常。异常的定义三分钟时间内,出现三次及以上的温度高于40度就算作是异常温度,进行报警输出测试数据

2020-10-01 21:54:35 976

原创 flink-22 flink复杂事物处理机制CEP

flink复杂事物处理机制CEPCEP概念CEP的主要特点Pattern API输入流的创建Pattern的定义设置循环次数定义触发条件模式序列注意Pattern检测选取结果通过select抽取正常事件通过flatSelect抽取正常事件通过select抽取延迟事件CEP示例使用state实现使用CEP编程实现官网CEP概念CEP是Complex Event Processing三个单词的缩写,表示复杂事件处理,是一种基于流处理的技术,CEP是Flink专门为我们提供的一个基于复杂事件监测处理的库,C

2020-09-30 11:29:02 726

原创 flink-21 flink之table和SQL

flink之table和SQLtable与SQL的基本介绍为什么需要SQL开发环境构建TableEnvironmentTable API创建 Table从文件中创建 Table(静态表)从DataStream中创建 Table(动态表)**table与SQL的基本介绍在Spark中有DataFrame这样的关系型编程接口,因其强大且灵活的表达能力,能够让用户通过非常丰富的接口对数据进行处理,有效降低了用户的使用成本。Flink也提供了关系型编程接口 Table API 以及基于Table API 的

2020-09-28 20:43:03 1999

原创 flink-20 watermark机制

watermark机制watermark概念watermark作用watermark原理watermark使用的三种情况watermark概念通常情况下由于网络或者系统等外部因素影响下,事件数据往往不能及时传输至FLink系统中,导致系统的不稳定而造成数据乱序到达或者延迟达到等问题,因此需要有一种机制能够控制数据处理的进度。具体来讲,在创建一个基于时间的window后,需要确定属于该window的数据元素是否已经全部到达,确定后才可以对window中的所有数据做计算处理(如汇总、分组),如果数据并没

2020-09-25 22:49:52 320

原创 flink-19 flink之Time概念

flink之Time概念flink中Time的概念EventTimeIngestTimeProcessingTime(默认时间)三种时间的综合比较设置 Time 类型示例:ProcessWindowFunction实现时间确定flink中Time的概念对流失数据处理,最大的特点是数据上具有时间的属性特征flink根据时间产生的位置不同,可以将时间区分为三种时间概念Event Time(事件生成时间)事件产生的时间,它通常由事件中的时间戳描述Ingestion time(事件接入时间)

2020-09-24 20:04:08 154

原创 flink-18 flink之windows窗口

flink之windows窗口概念窗口的类型滚动窗口(tumbling windows)滑动窗口(sliding windows)会话窗口窗口(session windows)窗口应用示例窗口数据的集合统计增量聚合统计7.3.2 全量聚合统计概念把数据想象成一种流,窗口在流上滑动,显示指定时间段或指定个数的数据。即windows是一种可以把无限无数据切割为有限数据块的手段应用场景对于流式处理,如果我们需要求取总和,平均值,或者最大值,最小值等,是做不到的,因为数据一直在源源不断的产生,即数据是没有

2020-09-24 16:24:08 287

原创 flink-17 flink集成kafka

flink集成kafka前言kafka作为flink的sourcekafka作为flink的sinkpom依赖官网前言Flink提供了一个特有的kafka connector去读写kafka topic的数据。flink消费kafka数据,并不是完全通过跟踪kafka消费组的offset来实现去保证exactly-once的语义,而是flink内部去跟踪offset和做checkpoint去实现exactly-once的语义,而且对于kafka的partition,Flink会启动对应的并行度去处理ka

2020-09-24 01:44:14 862

原创 flink-16 checkpoint

checkpointcheckpoint概念checkpoint的前提checkpoint步骤配置checkpoint重启策略从checkpoint恢复数据checkpoint保存多个历史版本save checkpoint保存数据checkpoint概念为了保证state的容错性,flink需要对state进行checkpointcheckpoint是flink实现容错机制最核心的功能,它能根据配置周期性的基于Stream各个operator/task的状态来生成快照,从而将这些状态数据定期持久化存储

2020-09-23 22:18:58 715 1

原创 flink15 flink状态管理之state backend

flink状态管理之state backendState Backend设置方法:MemoryStateBackendFsStateBackendRocksDBStateBackend3种方式小结修改state-backend的两种方式State Backend默认情况下state会保存在TaskManager的内存中checkpoint会存储在JobManager的内存中state的存储和checkpoint的取决于State Backend的配置。Flink提供了3种State Backe

2020-09-23 11:57:21 1237 1

原创 flink-14 flink之State类型

flink之Statestate概述state类型operator statekey statestate概述state一般指一个具体的task/operator的状态,state数据默认保存在java的堆内存中。flink通过state和checkpoint更容易实现At -least-once 和 Exactly-oncestate流程state类型flink有两种基本类型的stateoperator statekeyed state每种类型的state都可以以两种形式存在

2020-09-22 22:50:30 2078 1

原创 flink-13 Flink之Counter(计数器/累加器)

Flink之Counter概念用法示例概念Accumulator即累加器,与Mapreduce counter的应用场景差不多,都能很好地观察task在运行期间的数据变化,可以在Flink job任务中的算子函数中操作累加器,但是只能在任务执行结束之后才能获得累加器的最终结果。Counter是一个具体的累加器(Accumulator)实现IntCounter, LongCounter 和 DoubleCounter用法1.创建累加器private IntCounter numLines =

2020-09-21 20:59:52 2173

原创 flink-12 flink分布式缓存

flink分布式缓存概念用法概念Flink提供了一个类似于hadoop分布式缓存,可以使用户在并行函数中很方便的读取本地文件。广播变量是将一些共享的数据放在TaskManager内存中而Distribute cache是从外部加载一个文件/目录(例如hdfs),然后分别复制到每一个TaskManager的本地磁盘中。用法1.使用Flink运行环境调用registerCachedFile注册一个分布式缓存env.registerCachedFile("hdfs:///path/to/your

2020-09-21 20:45:26 722 1

原创 flink-11 dataSet之集成HBASE读写数据

dataSet之connector文件系统connectorflink集成Hbase数据读取flink读取数据,然后写入HBase官网地址文件系统connectorfink内置支持从如下文件系统读取数据文件系统Schema备注HDFShdfs://Hdfs文件系统S3s3://通过hadoop文件系统实现支持MapRmaprfs://需要用户添加jarAlluxioalluxio://通过hadoop文件系统实现注意Flink允许用户

2020-09-21 19:58:26 1187

原创 flink-10 DataSet算子

dataset转换算子常见的DataSet转换算子算子mapPartitiondistinct链接操作joinleftOuterJoin、rightOuterJoincrossfirst-N和sortPartitionpartition官网地址常见的DataSet转换算子算子Map输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作FlatMap输入一个元素,可以返回零个,一个或者多个元素MapPartition类似map,一次处理一个分区的数据【如果在进行map

2020-09-21 14:47:34 361

IDEA快捷键大全.zip

用户仅可上传其享有知识产权或已取得相关权利人合法授权的资源或内容,用户不得在未经授权的情况下,上传任何可能涉及侵权的资源或内容,用户必须保证上传资源或内容不侵犯任何第三方的合法权益。用户不得未经著作权人同意擅自对他人的作品进行全部或部分复制、修改、改编、翻译、汇编、反向工程、反向编译、反向汇编或改写并进行上传。用户可以为介绍、评论、研究等目的,在合理范围内依法引用他人已经发表的作品,但应当注明作者姓名、作品名称,且不得侵犯著作权人及其他权利人的合法权益

2020-07-14

工程文件设置输出

配置VS,按照库文件、头文件等给项目分类。

2016-11-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除