自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风中一叶

专注于数据技术及其应用

  • 博客(30)
  • 收藏
  • 关注

原创 Flink面试_002、operator state 和 keyed state 两者的区别?最大并行度和这两种 state 的关系?

举个例子,当用户停止任务、更新代码逻辑并且改变任务并发度时,两种 state 都是怎样进行恢复的1. 区分 operator-state 和 keyed-state 的方式a. operator-state: 1. 状态适用算子:所有算子都可以使用 operator-state,没有限制。 2. 如果需要使用 operator-state,需要实现 CheckpointedFunction 或 ListCheckpointed 接口 3. DataStream API 中,operato...

2022-03-05 10:09:26 1268

原创 Flink面试_001、你们公司是通过什么样的监控及保障手段来保障实时指标的质量?比如事前事中事后是怎么做的?

1. 事前:a. 任务层面:根据峰值流量进行压力测试,并且留一定 buffer,用于事前保障任务在资源层面没有瓶颈b. 指标层面:根据业务要求,上线实时指标前进行相同口径的实时、离线指标的验数2. 事中:a. 任务层面:贴源层监控 kafka 堆积延迟等报警检测手段,用于事中及时发现问题。比如的普罗米修斯监控 lag 时长b. 指标层面:根据指标特点进行实时指标同环比对比监控、实时离线指标结果对比监控。这里的监控算法可以是阈值、时序异常算法等。检测到波动过大就报警。比如最简单的方式是可以通...

2022-03-05 10:05:34 147

原创 MPP架构

什么是MPP架构MPP (Massively Parallel Processing),即大规模并行处理。并行处理: 在数据库集群中,首先每个节点都有独立的磁盘存储系统和内存系统,其次业务数据根据数据库模型和应用特点划分到各个节点上,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。大规模: 每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。整个集群称为非共享数据库集群,非共享...

2021-02-11 12:34:29 3358 1

转载 1.1、Pyspark模块介绍.

pyspark是Spark的python API,提供了使用python编写并提交大数据处理作业的接口。在pyspark里大致分为5个主要的模块1. pyspark模块,这个模块四最基础的模块,里面实现了最基础的编写Spark作业的API。这个模块里面有以下内容:Sparkcontext:它是编写Spark程序的主入口RDD:分布式弹性数据集,是Spark内部中最重要的抽象Br...

2018-11-23 00:05:29 1068

转载 Spark与Pandas中DataFrame的详细对比

   Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。 支持Hadoop,能处理...

2018-11-09 04:36:02 1120

转载 18.弄懂生成器节约内存一边计算一边生成

 1.使用列表生成式可以方便快捷的生成列表,但是若生成一个很大的列表,势必会占用大量的内容。那我们是否能在计算的过程中,一边计算一边生成喃?答案是肯定的,我们使用生成器generator。 2.生成器的创建很简单,最简单的一种是把生成式的[]替换成()a= [x*x for x in range(10)]print(type(a))b= (x*x for x in range(...

2018-11-09 04:10:52 1400

转载 16.学会列表生成式,列表生成不再难

1.我们可以使用高效的列表生成式生成列表。 2.加入我们有一个已知的列表,要将列表中的每一个元素乘以2生成新的列表,老办法可能就得写个for循环。但是可以使用列表生成式高效的生成list1=list(range(1,20,2))print(list1)list2=[i*2 for i in list1]print(list2)[1, 3, 5, 7, 9, 11, 13, 15,...

2018-11-09 03:30:24 2721

转载 2 、SparkSQL编程入口SparkSession

1.要编写SparkSQL程序,必须通SparkSession对象pyspark.sql.SparkSession(sparkContext, jsparkSession=None)在spark1.x之前的版本中,SparkSQL程序的编程入口是pyspark.sql.SQLContext(sparkContext, sparkSession=None, jsqlContext=Non...

2018-11-04 18:41:41 6777 1

转载 1、SparkSQL模块介绍

1.SparkSQL是Spark的四大组件之一,也是在Spark数据处理中用得最多的组件。SparkSQL在SparkCore的基础上对外提供了SQL接口,可以让熟悉SQL的技术人员快速上手。其编程接口为SparkSession。2.SparkSQL所有的内容位于pyspark.sql这个模块下,包含了SparkSession、Column、Row等众多的核心内容。SparkSQL是面向结构...

2018-11-03 19:21:26 427

转载 15.可迭代数据的克星

1.我们可以使用python内置的for...in语句迭代所有可迭代的集合人,例如迭代list、tuple、dict、set等2. 如何查看一个对象是否可以迭代。我们可以使用collection模块的Iterable类型来判断。from collections import Iterablelist1=list(range(10))tuple1=tuple(range(10))...

2018-11-02 22:48:26 174

转载 14.外科手术刀之集合切片

1.对集合list或tuple部分元素的操作是非常常见的操作,我们固然可以通过例如索引、循环等方式获得集合中的元素,但是显得非常繁琐。python为我们提供了更加简洁的方式——切片2.切片的使用方式是:startIndex:endIndex:steplist1= list(range(100))print(list1[23:40])[23, 24, 25, 26, 27, 28,...

2018-11-02 22:47:32 495

转载 13.简单明了的递归函数

1.递归函数:如果在一个函数的内部调用本身,就形成一个递归函数。2.使用递归函数需要注意 堆栈溢出,在计算机内部,递归是通过Stack这种数据结构实现的。每调用一次函数,增加一层栈帧,每return一次减少一次栈帧。3.理论上递归调用都可以使用循环来替代,但是循环没有递归简洁明了。4.用递归思想计算阶乘。def factorial(n):    if n==1:     ...

2018-11-02 22:45:59 316

转载 12.多变的函数参数

1.定义函数的时候,吧函数的参数和参数的位置确定下来,加上函数体及return返回值,函数定义就完成了。函数内部复杂的逻辑被封装起来,调用者只需要知道需要传哪些参数,产生什么返回值就可以了。2.python定义函数参数的灵活性非常大,有必选参数、默认参数、可变参数、关键字参数、参数组合等形式出现3.位置参数:按照位置排列好的参数4.默认参数:函数的某一个参数比较固定,我们可以为其设置默...

2018-11-02 22:41:32 754

转载 11.自己说了算,定义自己的函数

1.python中使用def定义函数,函数定义格式为:def 函数名(参数列表):代码块return 返回值2.如果没有return语句,函数也会有返回值,返回None3.若要从其他py文件中引用对应的方法,需要使用from语句,具体用法如下:from 文件名(不加.py) import 函数名4.空函数(钩子函数):什么也不做的函数。在函数代码块中使用pass,实际上...

2018-11-02 22:39:46 155

转载 Pyspark开发环境搭建

快速搭建Pyspark开发环境,方便代码编写和调试~~1、下载并安装JDK2、下载并安装Anacadon33、下载hadoop4、下载winutils.exe并放在hadoop\bin目录下5 、pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark安装pyspark和py4j.6、Pycharm...

2018-11-02 00:55:11 2223

转载 10.“捡现成”之函数调用

1.函数是一种基本规律的抽象,可重用。例如说圆面积、正方形边长,椭圆面积等。这些被发现的公式或定理或规律被固化下来,我们在遇到的时候可以直接套用这些定义好的函数。2.python内置了很多的函数,这些函数为我们省去了大量的工作3.我们可以“捡现成”直接调用定义好的方法,而不必事必躬亲自己去实现4.调用函数需要知道函数的名字,传入必要的参数。list=[1,87,3,6,7]p...

2018-11-01 21:08:45 191

转载 9.‘独一无二的’set

1.set中没有重复出现的元素,用于存储不重复的数据。重复的数据会被自动过滤掉2.构建set需要传入一个listset1 = set([1,2,3,5,'aa'])print(type(set1))print(set1)<class 'set'>{1, 2, 3, 5, 'aa'} ​3.通过add方法向set集合中添加元素,但是相同的元素添加...

2018-11-01 21:06:34 119

转载 8.高效的dict

1.dict是Python内置的字典结构,类似于其它语言的map2.dict的查询效率很高,类似于查找字典。根据key找到value存放的位置,然后直接访问value3.python中的dict字典的创建以{}或dict()方法声明4.向字典中追加数据,追加相同的key,后面的数据会覆盖之前的数据 ​5.删除字典中的某个key对应的数据,使用pop ​6.修改某个key对应的数...

2018-11-01 21:04:55 166

转载 7.集合遍历能手for&while

1.for遍历list和tuplelist1=[1,2,3,4,'a']for data in list1:    print(data)tuple1=('a','b',3.14)for data in tuple1:    print(data)1234aab3.14 ​2.计算和list=range(101)sum=0...

2018-11-01 21:02:34 205

转载 6.从不撒谎的条件判断

1.计算机之所以强大的原因是因为内部能根据不同的条件作出判断,自动化的完成任务2.在python语言里面使用if ... else 语句来进行条件判断3.若条件为True,执行if:对应的代码块,否则执行else对应的代码块4.只要条件非零值、非空字符串、非空list则判断为True5.注意if ... else 后面的代码块用‘:’表示,‘:’后面是要执行的代码块 ...

2018-11-01 21:00:15 140

转载 5.“死板”的tuple

1.tuple是python中的另外一种有序的列表,一旦初始化就不能被修改2.因为tuple一旦初始化就不能变化,因此没有append(),insert()这些方法。获取元素的方法同list类似3.因为tuple不可变,所以代码更安全4.定义一个空的tupletuple1 = tuple()tuple2=()print('class:%s,len:%d'% (type(t...

2018-11-01 20:58:24 104

转载 4.python中的list集合

1.list:python内置的有序的集合2.有两种声明list的方式:list()和[] list1=['liko','alan'] list2=list(['liko','alan']) print(type(list1),type(list2))<class 'list'> <class 'list'>3.使用len函数获取list的长度 print(le...

2018-11-01 20:56:03 1733

转载 3.字符串和编码

1.计算机只认识数字,因此字符串被转换为数字进行表示。因此出现了编码,最早的编码是ASCII码2.随着不同的语言接入计算机系统,出现了不同的编码。例如要将汉子输入计算机,出现了GB2312编码,要将俄语输入计算机出现了windows-1251编码等3.随着编码越来越多,跨过跨地区的网上交流出现了混乱,在多语言的环境下不能正常显示所有的语言信息4.于是统一的Unicode标准编码应运而生...

2018-11-01 20:53:02 201

转载 2.数据类型和变量

1.整数1 100 -100 299使用type(100)打印出数据的类型print(type(100)) <class 'int'>2.浮点数3.1415 -0.999 26.0使用type(3.1415)打印出数据类型print(type(3.1415))<class 'float'>3.字符串a.字符串以'或“括起来b...

2018-11-01 20:50:24 155

转载 1.Python简介及环境安装

1.Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。2.编程语言排行(截止2017-04)3。python的特点:简单、优雅。4。python优点:a.完善的基础代码库 b.大量的第三方库 c.许多大型网站都在使用(豆瓣,google,yahoo,NASA) d.开发效率高5。python能够用于开发哪些...

2018-11-01 20:43:04 116

转载 Spark SQL 内置函数列表

文章目录•    1 !•    2 %•    3 &•    4 *•    5 +•    6 -•    7 /•    8 <•    9 <=•    10 <=>•    11 =•    12 ==•    13 >•    14 >=•    15 ^•    16 abs•    17 acos•...

2018-10-27 09:31:20 13224

转载 Spark Python API函数:pyspark API(4)

文章目录•    1 countByKey•    2 join•    3 leftOuterJoin•    4 rightOuterJoin•    5 partitionBy•    6 combineByKey•    7 aggregateByKey•    8 foldByKey•    9 groupByKey•    10 flatMapValues•  ...

2018-10-27 09:09:53 216

转载 Spark Python API函数:pyspark API(3)

文章目录•    1 histogram•    2 mean•    3 variance•    4 stdev•    5 sampleStdev•    6 sampleVariance•    7 countByValue•    8 top•    9 takeOrdered•    10 take•    11 first•    12 collectAsM...

2018-10-27 09:07:45 390

转载 Spark Python API函数:pyspark API(2)

文章目录•    1 sortBy•    2 glom•    3 cartesian•    4 groupBy•    5 pipe•    6 foreach•    7 foreachPartition•    8 collect•    9 reduce•    10 fold•    11 aggregate•    12 max•    13 min•...

2018-10-27 09:02:11 375

转载 Spark Python API函数:pyspark API(1)

文章目录•    1 pyspark version•    2 map•    3 flatMap•    4 mapPartitions•    5 mapPartitionsWithIndex•    6 getNumPartitions•    7 filter•    8 distinct•    9 sample•    10 takeSample•    11...

2018-10-27 08:52:07 1037

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除