风中一叶(Liko)-CSDN博客

原创 Flink面试_002、operator state 和 keyed state 两者的区别？最大并行度和这两种 state 的关系？

举个例子，当用户停止任务、更新代码逻辑并且改变任务并发度时，两种 state 都是怎样进行恢复的1. 区分 operator-state 和 keyed-state 的方式a. operator-state： 1. 状态适用算子：所有算子都可以使用 operator-state，没有限制。 2. 如果需要使用 operator-state，需要实现 CheckpointedFunction 或 ListCheckpointed 接口 3. DataStream API 中，operato...

2022-03-05 10:09:26 1268

原创 Flink面试_001、你们公司是通过什么样的监控及保障手段来保障实时指标的质量？比如事前事中事后是怎么做的？

1. 事前：a. 任务层面：根据峰值流量进行压力测试，并且留一定 buffer，用于事前保障任务在资源层面没有瓶颈b. 指标层面：根据业务要求，上线实时指标前进行相同口径的实时、离线指标的验数2. 事中：a. 任务层面：贴源层监控 kafka 堆积延迟等报警检测手段，用于事中及时发现问题。比如的普罗米修斯监控 lag 时长b. 指标层面：根据指标特点进行实时指标同环比对比监控、实时离线指标结果对比监控。这里的监控算法可以是阈值、时序异常算法等。检测到波动过大就报警。比如最简单的方式是可以通...

2022-03-05 10:05:34 147

原创 MPP架构

什么是MPP架构MPP (Massively Parallel Processing)，即大规模并行处理。并行处理：在数据库集群中，首先每个节点都有独立的磁盘存储系统和内存系统，其次业务数据根据数据库模型和应用特点划分到各个节点上，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。大规模：每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。整个集群称为非共享数据库集群，非共享...

2021-02-11 12:34:29 3358 1

转载 1.1、Pyspark模块介绍.

pyspark是Spark的python API，提供了使用python编写并提交大数据处理作业的接口。在pyspark里大致分为5个主要的模块1. pyspark模块，这个模块四最基础的模块，里面实现了最基础的编写Spark作业的API。这个模块里面有以下内容：Sparkcontext:它是编写Spark程序的主入口RDD：分布式弹性数据集，是Spark内部中最重要的抽象Br...

2018-11-23 00:05:29 1068

转载 Spark与Pandas中DataFrame的详细对比

Pandas Spark 工作方式单机single machine tool，没有并行机制parallelism 不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理...

2018-11-09 04:36:02 1120

转载 18.弄懂生成器节约内存一边计算一边生成

1.使用列表生成式可以方便快捷的生成列表，但是若生成一个很大的列表，势必会占用大量的内容。那我们是否能在计算的过程中，一边计算一边生成喃？答案是肯定的，我们使用生成器generator。 2.生成器的创建很简单，最简单的一种是把生成式的[]替换成()a= [x*x for x in range(10)]print(type(a))b= (x*x for x in range(...

2018-11-09 04:10:52 1400

转载 16.学会列表生成式，列表生成不再难

1.我们可以使用高效的列表生成式生成列表。 2.加入我们有一个已知的列表，要将列表中的每一个元素乘以2生成新的列表，老办法可能就得写个for循环。但是可以使用列表生成式高效的生成list1=list(range(1,20,2))print(list1)list2=[i*2 for i in list1]print(list2)[1, 3, 5, 7, 9, 11, 13, 15,...

2018-11-09 03:30:24 2721

转载 2 、SparkSQL编程入口SparkSession

1.要编写SparkSQL程序，必须通SparkSession对象pyspark.sql.SparkSession(sparkContext, jsparkSession=None)在spark1.x之前的版本中，SparkSQL程序的编程入口是pyspark.sql.SQLContext(sparkContext, sparkSession=None, jsqlContext=Non...

2018-11-04 18:41:41 6777 1

转载 1、SparkSQL模块介绍

1.SparkSQL是Spark的四大组件之一，也是在Spark数据处理中用得最多的组件。SparkSQL在SparkCore的基础上对外提供了SQL接口，可以让熟悉SQL的技术人员快速上手。其编程接口为SparkSession。2.SparkSQL所有的内容位于pyspark.sql这个模块下，包含了SparkSession、Column、Row等众多的核心内容。SparkSQL是面向结构...

2018-11-03 19:21:26 427

转载 15.可迭代数据的克星

1.我们可以使用python内置的for...in语句迭代所有可迭代的集合人，例如迭代list、tuple、dict、set等2. 如何查看一个对象是否可以迭代。我们可以使用collection模块的Iterable类型来判断。from collections import Iterablelist1=list(range(10))tuple1=tuple(range(10))...

2018-11-02 22:48:26 174

转载 14.外科手术刀之集合切片

1.对集合list或tuple部分元素的操作是非常常见的操作，我们固然可以通过例如索引、循环等方式获得集合中的元素，但是显得非常繁琐。python为我们提供了更加简洁的方式——切片2.切片的使用方式是：startIndex:endIndex:steplist1= list(range(100))print(list1[23:40])[23, 24, 25, 26, 27, 28,...

2018-11-02 22:47:32 495

转载 13.简单明了的递归函数

1.递归函数：如果在一个函数的内部调用本身，就形成一个递归函数。2.使用递归函数需要注意堆栈溢出，在计算机内部，递归是通过Stack这种数据结构实现的。每调用一次函数，增加一层栈帧，每return一次减少一次栈帧。3.理论上递归调用都可以使用循环来替代，但是循环没有递归简洁明了。4.用递归思想计算阶乘。def factorial(n): if n==1: ...

2018-11-02 22:45:59 316

转载 12.多变的函数参数

1.定义函数的时候，吧函数的参数和参数的位置确定下来，加上函数体及return返回值，函数定义就完成了。函数内部复杂的逻辑被封装起来，调用者只需要知道需要传哪些参数，产生什么返回值就可以了。2.python定义函数参数的灵活性非常大，有必选参数、默认参数、可变参数、关键字参数、参数组合等形式出现3.位置参数：按照位置排列好的参数4.默认参数：函数的某一个参数比较固定，我们可以为其设置默...

2018-11-02 22:41:32 754

转载 11.自己说了算，定义自己的函数

1.python中使用def定义函数，函数定义格式为：def 函数名(参数列表):代码块return 返回值2.如果没有return语句，函数也会有返回值，返回None3.若要从其他py文件中引用对应的方法，需要使用from语句，具体用法如下：from 文件名（不加.py） import 函数名4.空函数（钩子函数）：什么也不做的函数。在函数代码块中使用pass，实际上...

2018-11-02 22:39:46 155

转载 Pyspark开发环境搭建

快速搭建Pyspark开发环境，方便代码编写和调试~~1、下载并安装JDK2、下载并安装Anacadon33、下载hadoop4、下载winutils.exe并放在hadoop\bin目录下5 、pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark安装pyspark和py4j.6、Pycharm...

2018-11-02 00:55:11 2223

转载 10.“捡现成”之函数调用

1.函数是一种基本规律的抽象，可重用。例如说圆面积、正方形边长，椭圆面积等。这些被发现的公式或定理或规律被固化下来，我们在遇到的时候可以直接套用这些定义好的函数。2.python内置了很多的函数，这些函数为我们省去了大量的工作3.我们可以“捡现成”直接调用定义好的方法，而不必事必躬亲自己去实现4.调用函数需要知道函数的名字，传入必要的参数。list=[1,87,3,6,7]p...

2018-11-01 21:08:45 191

转载 9.‘独一无二的’set

1.set中没有重复出现的元素，用于存储不重复的数据。重复的数据会被自动过滤掉2.构建set需要传入一个listset1 = set([1,2,3,5,'aa'])print(type(set1))print(set1)<class 'set'>{1, 2, 3, 5, 'aa'} 3.通过add方法向set集合中添加元素，但是相同的元素添加...

2018-11-01 21:06:34 119

转载 8.高效的dict

1.dict是Python内置的字典结构，类似于其它语言的map2.dict的查询效率很高，类似于查找字典。根据key找到value存放的位置，然后直接访问value3.python中的dict字典的创建以{}或dict()方法声明4.向字典中追加数据，追加相同的key，后面的数据会覆盖之前的数据 5.删除字典中的某个key对应的数据，使用pop 6.修改某个key对应的数...

2018-11-01 21:04:55 166

转载 7.集合遍历能手for&while

1.for遍历list和tuplelist1=[1,2,3,4,'a']for data in list1: print(data)tuple1=('a','b',3.14)for data in tuple1: print(data)1234aab3.14 2.计算和list=range(101)sum=0...

2018-11-01 21:02:34 205

转载 6.从不撒谎的条件判断

1.计算机之所以强大的原因是因为内部能根据不同的条件作出判断，自动化的完成任务2.在python语言里面使用if ... else 语句来进行条件判断3.若条件为True,执行if：对应的代码块，否则执行else对应的代码块4.只要条件非零值、非空字符串、非空list则判断为True5.注意if ... else 后面的代码块用‘：’表示，‘：’后面是要执行的代码块 ...

2018-11-01 21:00:15 140

转载 5.“死板”的tuple

1.tuple是python中的另外一种有序的列表，一旦初始化就不能被修改2.因为tuple一旦初始化就不能变化，因此没有append(),insert()这些方法。获取元素的方法同list类似3.因为tuple不可变，所以代码更安全4.定义一个空的tupletuple1 = tuple()tuple2=()print('class:%s,len:%d'% (type(t...

2018-11-01 20:58:24 104

转载 4.python中的list集合

1.list:python内置的有序的集合2.有两种声明list的方式：list()和[] list1=['liko','alan'] list2=list(['liko','alan']) print(type(list1),type(list2))<class 'list'> <class 'list'>3.使用len函数获取list的长度 print(le...

2018-11-01 20:56:03 1733

转载 3.字符串和编码

1.计算机只认识数字，因此字符串被转换为数字进行表示。因此出现了编码，最早的编码是ASCII码2.随着不同的语言接入计算机系统，出现了不同的编码。例如要将汉子输入计算机，出现了GB2312编码，要将俄语输入计算机出现了windows-1251编码等3.随着编码越来越多，跨过跨地区的网上交流出现了混乱，在多语言的环境下不能正常显示所有的语言信息4.于是统一的Unicode标准编码应运而生...

2018-11-01 20:53:02 201

转载 2.数据类型和变量

1.整数1 100 -100 299使用type(100)打印出数据的类型print(type(100)) <class 'int'>2.浮点数3.1415 -0.999 26.0使用type(3.1415)打印出数据类型print(type(3.1415))<class 'float'>3.字符串a.字符串以'或“括起来b...

2018-11-01 20:50:24 155

转载 1.Python简介及环境安装

1.Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间，为了打发无聊的圣诞节而编写的一个编程语言。2.编程语言排行（截止2017-04）3。python的特点：简单、优雅。4。python优点：a.完善的基础代码库 b.大量的第三方库 c.许多大型网站都在使用（豆瓣，google,yahoo,NASA） d.开发效率高5。python能够用于开发哪些...

2018-11-01 20:43:04 116

转载 Spark SQL 内置函数列表

文章目录• 1 !• 2 %• 3 &• 4 *• 5 +• 6 -• 7 /• 8 <• 9 <=• 10 <=>• 11 =• 12 ==• 13 >• 14 >=• 15 ^• 16 abs• 17 acos•...

2018-10-27 09:31:20 13224

转载 Spark Python API函数：pyspark API(4)

文章目录• 1 countByKey• 2 join• 3 leftOuterJoin• 4 rightOuterJoin• 5 partitionBy• 6 combineByKey• 7 aggregateByKey• 8 foldByKey• 9 groupByKey• 10 flatMapValues• ...

2018-10-27 09:09:53 216

转载 Spark Python API函数：pyspark API(3)

文章目录• 1 histogram• 2 mean• 3 variance• 4 stdev• 5 sampleStdev• 6 sampleVariance• 7 countByValue• 8 top• 9 takeOrdered• 10 take• 11 first• 12 collectAsM...

2018-10-27 09:07:45 390

转载 Spark Python API函数：pyspark API(2)

文章目录• 1 sortBy• 2 glom• 3 cartesian• 4 groupBy• 5 pipe• 6 foreach• 7 foreachPartition• 8 collect• 9 reduce• 10 fold• 11 aggregate• 12 max• 13 min•...

2018-10-27 09:02:11 375

转载 Spark Python API函数：pyspark API(1)

文章目录• 1 pyspark version• 2 map• 3 flatMap• 4 mapPartitions• 5 mapPartitionsWithIndex• 6 getNumPartitions• 7 filter• 8 distinct• 9 sample• 10 takeSample• 11...

2018-10-27 08:52:07 1037

风中一叶