4 菜丸子

尚未进行身份认证

北京求工作,13720003229

等级
博文 158
排名 3w+

RDD、DataFrame和DataSet的区别

Dataset可以认为是DataFrame的一个特例,主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row。因此具有如下三个特点:⑴DataSet可以在编译时检查类型⑵并且是面向对象的编程接口⑶后面版本DataFrame会继承DataSet,DataFrame是面向SparkSQL的接口shuffle的本质主要是spark的shuffle非常激进的使用内存...

2019-07-14 16:36:13

【Linux】常见问题

文章目录1.安装chrome无法启动1.安装chrome无法启动[0807/144244.712736:FATAL:nss_util.cc(627)]NSS_VersionCheck("3.26")failed.NSS>=3.26isrequiredPleaseupgradetothelatestNSS,andifyoustillgetthiser...

2019-07-12 20:38:23

【Linux】基础

1.进程三种状态运行态(Running):占有CPU,并在CPU上运行就绪态(Ready):已经具备运行条件,但由于没有空闲CPU,而暂时不能运行等待态(Waiting/Blocked):因等待某一事件而暂时不能运行:如等待读盘结果2.交换分区在内存小于2G的情况下,交换分区应为内存的2倍,超过2G的话,交换分区为物理内存加上2G3.文件权限⑴首先我们看一张图44...

2019-07-12 19:24:11

【Spark】stage和task

需要shuffle的时候就划stage遇到宽依赖就划分stage,每个stage包含一个或多个task,然后将这些task以taskSet的形式提交给TaskScheduler运行,stage是由一组并行的task组成。...

2019-07-11 21:27:33

【Spark】宽依赖和窄依赖

宽依赖:父RDD每个分区的数据可能被多个子RDD分区使用,子RDD分区通常对应所有的父RDD分区,分为两种情况一个父RDD的分区对应所有的子RDD的分区(没有core-patitioned过的join)一个父RDD分区对应非全部的的多个RDD分区(groupByKey)窄依赖父RDD每个分区的只被子RDD的一个分区使用,子RDD通常对应常数个父RDD分区,这其中分为两种情况一个子...

2019-07-11 20:30:33

【Spark】分区

一概述一个HDFS文件的RDD将文件的每个文件块表示为一个分区,并且知道每个文件块的位置信息。这些对应着数据块的分区分布到集群的节点中,因此,分区的多少涉及对这个RDD进行并行计算的粒度。首先,分区是一个逻辑概念,变换前后的新旧分区在物理上可能是同一块内存或者是存储。需要注意的是,如果没有指定分区数将使用默认值,而默认值是该程序所分配到CPU核数,如果是从HDFS文件创建,默认为文件的数据...

2019-07-11 20:16:40

【厨艺】调料基础

文章目录1.盐⑴腌制的时候放盐⑵炒菜的过程中放盐⑶出锅前放盐⑷凉拌菜2.料酒3.姜4.葱5.蒜6.八角7.花椒8.鸡精9.味精10.酱油1.盐⑴腌制的时候放盐我们在蒸鱼、炸鱼或者烧肉的时候,在煮之前可以先撒一点盐在鱼或者肉上,腌制一会儿,腌制以后再下锅咸味比较容易渗入煮鱼或肉里,有助于入味。⑵炒菜的过程中放盐肉菜可以炒菜过程中放盐,出锅前再补点盐。⑶出锅前放盐一般情况下炒素菜的时候都...

2019-07-08 23:39:47

【JAVA】基本语法

1.跳出for循环的方式⑴使用label标签packagedxc1;publicclassTest123{ publicstaticvoidmain(String[]args){ heidou: for(inti=0;i<5;i++){ for(intj=0;j<5;j++){ System.out.println("i是"...

2019-07-08 23:12:57

【网络】网络基础

1.硬件地址MAC地址是网卡决定的,是固定的。MAC地址就如同我们身份证上的身份证号码2.域名一个域名对应一个IP地址,一个IP地址可以对应多个域名;所以多个域名可以同时被解析到一个IP地址。域名解析需要由专门的域名解析服务器(DNS)来完成。3.私有IP地址私有IP就是在本地局域网上的IP与之对应的是公有IP(在互联网上的IP)。10.0.0.0~10.255.255.255即...

2019-07-08 21:48:18

【JAVA】多线程基础

1.多线程基础⑴什么是多线程运行中的exe程序就是一个进程,进程中独立的子任务就是线程⑵线程和进程的区别进程是系统进行资源分配的一个独立单位,线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位,一个进程可以包括多个线程⑶线程的五大状态新建创建线程还没有start就绪start但是还没有获取CPU时间片运行正在执行阻塞比如sleep等...

2019-07-08 21:17:29

【JAVA】JVM

1JVM内存模型概括地说来,JVM初始运行的时候都会分配好MethodArea(方法区)和Heap(堆),而JVM每遇到一个线程,就为其分配一个ProgramCounterRegister(程序计数器),VMStack(虚拟机栈)和NativeMethodStack(本地方法栈),当线程终止时,三者(虚拟机栈,本地方法栈和程序计数器)所占用的内存空间也会被...

2019-07-08 14:58:38

【JAVA】基础概念

1.java重载和重写以及隐藏2.构造方法3.访问修饰符4.接口,抽象类以及它们的区别5.关键字和保留字6.析构函数7.JAVA标识符8.JAVA中langsqlutil包9.super和this关键字10.JDK中的包和他们的基本功能11.object类的基本方法12.final关键字13.J2EE常用名词14.加载驱动的三种方式15.java编译后缀16.静态...

2019-07-08 00:25:57

【Python】collections

一deque使用deque在队列两端添加(append)或弹出(pop)元素的算法复杂度大约是O(1),但是对于list对象改变列表长度和数据位置的操作例如pop(0)和insert(0,v)操作的复杂度高达O(n)。#iterable和maxlen可以没有deque(iterable,maxlen)1.双端队列⑴append右添加⑵appendleft左添加⑶...

2019-07-07 18:17:53

【Python】魔术方法

一概述在Python中,所有以“__”双下划线包起来的方法,都统称为“MagicMethod”,中文称『魔术方法』,例如类的初始化方法。二常用的魔术方法1._init_()初始化方法,最常用的2._new_()在初始化方法之前执行,返回该类的一个实例3._del_()对象销毁前执行4._repr_()用来自定义对象的输出模式5._iter_()、_next_()一...

2019-07-06 12:53:31

【JAVA】sprinboot基础

一概述优点:快速构建项目支持运行期内嵌容器,如Tomcat、Jetty强大的开发包,支持热启动自动管理依赖非常简洁的安全策略集成方便对外输出各种形式的服务,如RESTAPI、WebSocket、Web、Streaming、Tasks自带应用监控缺点:缺点是集成度较高,使用过程中不太容易了解底层。...

2019-07-05 23:02:27

【Python】基础

1.python常用数据类型整型,python3支持int类型和二进制,八进制,十进制,十六进制表示法。浮点型,小数字符串型,单引号或双引号括起来的任意文本,还有原始字符串表示法、字节字符串表示法、Unicode字符串表示法,而且可以书写成多行的形式(用三个单引号或三个双引号开头,三个单引号或三个双引号结尾)布尔型,布尔值只有True、False两种值复数型,形如3+5j,跟数学上的...

2019-07-04 23:57:02

【计算机基础】CAP理论

一概述CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容忍性(Partitiontolerance)。CAP原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)可用性(A):在集群中一部分节...

2019-07-02 18:15:49

【大数据】HIVE常用优化

一hive性能优化优化并非完全针对时间,也可以针对内存:防止倾斜问题使用Mapjoin设置合理的mapreduce的task数裁剪过滤小文件进行合并降低内存占用二HIVE数据倾斜问题1.参数调优sethive.groupby.skewindata=true数据倾斜时负载均衡,查询时变成了两个MR,第一个map随机分配reduce,然后再做第二个MR。2.S...

2019-06-30 18:30:56

【大数据】【Spark】 Structured Streaming基础

一概述多数的流式计算引擎(比如storm、sparkstreaming等)都仅仅关注流数据的计算方面:比如使用一个map函数对一个流中每条数据都进行转换,或者是用reduce函数对一批数据进行聚合。但是,实际上在大部分的流式计算应用中,远远不只是需要一个流式计算引擎那么简单。相反的,流式计算仅仅在流式应用中占据一个部分而已。因此现在出现了一个新的名词,叫做持续计算/应用,continuous...

2019-06-29 23:24:25

【大数据】【Spark】 Streaming基础

一概述SparkStreaming底层的数据处理单位是:DStream;主要是处理流式数据(数据一直不停的在向Spark程序发送),这里可以结合SparkCore和SparkSQL来处理数据,如果来源数据是非结构化的数据,那么我们这里就可以结合SparkCore来处理,如果数据为结构化的数据,那么我们这里就可以结合SparkSQL来进行处理。特性易用可以像编...

2019-06-29 20:50:26
奖章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。