0 sun_0128

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 3w+

大数据常见面试题之spark core

文章目录一.spark的部署模式1.本地模式2.standalone模式3.spark on yarn模式二.driver的功能三.hadoop和spark都是并行计算,他们有什么相同点和不同点一.spark的部署模式1.本地模式spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定.将spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分为三类1)local:只启动一个executor2)local[k]:启动k个executor3)local[*

2020-08-07 10:49:13

spark基础练习2

有如下四个csv文件,列属性如下:#上传到本地#加载数据val customers = sc.textFile("file:///data/customers.csv").map(x => x.split(";").map(y => y.replace("\"", ""))) val products = sc.textFile("file:///data/products.csv").map(x => x.split(";").map(y => y.replace("\

2020-08-06 23:26:22

Apache Spark 分布式计算原理

Spark WordCount运行原理为什么需要划分Stage数据本地化移动计算,而不是移动数据保证一个Stage内不会发生数据移动RDD的依赖关系Lineage:血统、遗传RDD最重要的特性之一,保存了RDD的依赖关系RDD实现了基于Lineage的容错机制依赖关系宽依赖窄依赖宽依赖对比窄依赖宽依赖对应shuffle操作,需要在运行时将同一个父RDD的分区传入到不同的子RDD分区中,不同的分区可能位于不同的节点,就可能涉及多个节点间数据传输当RDD分区丢失时,Spark会

2020-08-06 14:35:38

spark基础练习

在名为sparkwork.txt中有如下内容:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 60

2020-08-04 22:39:31

Apache Spark基础及架构

文章目录一.为什么使用Spark二.Spark简介1.发展历程2.Spark优势3.Spark技术栈4.Spark环境部署5.Spark初体验6.Spark架构设计7.Spark架构核心组件8.Spark API三.核心API:RDD1.RDD概念2.RDD与DAG3.RDD的五大特性4.RDD编程流程5.RDD创建6.RDD分区与RDD的操作7.RDD转换算子8.RDD动作算子一.为什么使用SparkMapReduce编程模型的局限性繁杂:只有Map和Reduce两个操作,复杂的逻辑需要大量的样板

2020-08-04 12:43:49

大数据常见面试题之数据仓库

一.数仓中是如何划分主题的主题(subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象.例如销售分析就是一个分析领域,因此这个数据仓库应用的主题就是销售分析主题是根据分析的要求来确定的.这与按照数据处理或应用的要求来组织数据是不同的.如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷的进行材料供应的业务处理,而在进行分析处理时,人们

2020-08-03 10:40:15

scala扩展

一.模式匹配1.match表达式类似Java switch语句能处理任何类型不需要break能够生成值//基本模式匹配def matchTest(x: Int): String = x match { case 1 => "one" case 2 => "two" case _ => "many"}matchTest(3) // manymatchTest(1) // one//模式守卫(在模式后面加上if 条件)def matchTest2(

2020-07-31 12:29:28

大数据常见面试题之scala

文章目录1.偏函数2.函数柯里化3.scala的apply和unapply方法的作用4.元组5.scala优点6.scala中关键字implicit用法7.特质与抽象类的区别8.闭包9.Unit10.ArrayBuffer和Array区别11.Java和Scala的区别1.偏函数偏函数(Partial Function)是数学概念,它不是函数的一种,它跟函数是平行的概念.scala中的偏函数是一个Trait,类型为PartialFunction[A,B],其中接收一个类型为A的参数,返回一个类型为B

2020-07-31 09:30:07

大数据常见面试题之JVM

一.请说明一下Java虚拟机地作用是是什么解释运行字节码程序消除平台相关性JVM将Java字节码解释为具体平台地具体指令.一般地高级语言如果在不同地平台上运行,至少需要编译成不同地目标代码.而引进JVM之后,Java语言在不同地平台上运行时不需要重新编译.Java语言使用模式Java虚拟机屏蔽了与具体平台相关地信息,使得Java语言编译程序只需生成在Java虚拟机上运行地目标代码(字节码),就可以在多平台上不加修改地运行.Java虚拟机在执行字节码时,把字节码解释成具体平台上地机器指令执行二.Java

2020-07-31 08:20:32

scala OOP面向对象

文章目录一.类(class)二.单例对象 object三.特质 trait四.其他1.内部类2.样例类 case class3.泛型类4.类型边界5.型变6.包与包对象五.练习一.类(class)类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分类成员访问修饰符JavaModifierClass

2020-07-30 11:37:49

scala函数

文章目录一.Java Lambda表达式二.Scala方法和函数三.Scala函数练习练习1:函数定义练习2:匿名函数练习3:高阶函数练习4:嵌套函数一.Java Lambda表达式函数式接口一种只含有一个抽象方法声明的接口可以使用匿名内部类来实例化函数式接口的对象通过Lambda表达式可以进一步简化代码Lambda语法(parameters) -> expression(parameters) ->{ statements;...... }示例如下://Java8 方

2020-07-29 10:08:29

大数据常见面试题之Java多线程

1

2020-07-29 08:45:07

scala中关键字implicit的常用用法详解

文章目录一.隐式参数和隐式值二.隐式函数,用于类型不匹配时自动转换类型或关联两个类三.隐式类1.定义隐式类2.创建隐式类的参数类型对象,调用隐式类方法一.隐式参数和隐式值用法如下:package Implicitobject ImplicitDemo_value_parameter { def main(args: Array[String]): Unit = { //声明隐式值,注意同种类型只能声明一个值,否则运行错误(ambiguous--模糊的无法确定到底引用哪个值)

2020-07-28 19:22:09

大数据常见面试题之Java基础

一.HashMapjdk7:数组+链表jdk8:数组+链表+红黑树HashMap中维护了Node类型的数组table,初始为null1.创建对象时,将加载因子loadFactor初始化为0.75,其他成员保持默认值2. 添加元素时,相当于putVal方法,需要先将元素的key哈希值取出来,并且运算得出在数组中存放索引如果该索引出没有其他元素,则直接存放若该索引处有其他元素,需要先判断是否相等,若相等则覆盖,若不相等则继续判断是否为树结构或链表结构,根据不同结构进行不同处理3.如果需要扩容,则

2020-07-28 09:41:36

hadoop面试题

一、不定项选择题(1-12题每题2分,13题3分,共27分)下面那个程序负责HDFS数据存储(C)?A NameNodeB JobtrackerC DatanodeD secondaryNameNodeE tasktracker关于SecondaryNameNode哪项是正确的(C)?A 它是NameNode的热备。B 它对内存没有要求。C 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间。D SecondaryNameNode应与NameNode部署到

2020-07-27 12:28:05

RandomAccessFile 随机读写流

一.随机读写流的介绍RandomAccessFile-随机读写流,不属于任何流对象,直接继承了Object类,既可读又可写可随机访问读和写以前学的流对象 读取从文件开头读,写末尾追加或开头覆盖RandomAccessFile在文件任意位置上开始读和写,隐含了大型字节数组,文件都是由字节组成,文件二进制都放在自己的数组中有一种游标或索引到隐含数组中,称为文件指针输入操作从文件指针开始读取字节,并使文件指针超过读取的字节数。 如果在读/写模式下创建随机访问文件,则输出操作也可用;输出操作从文件指针

2020-07-26 11:52:13

scala高阶函数练习

文章目录1.编写函数values(fun:(Int)=>Int,low:Int,hight:Int)该函数输出一个集合,对应给定区间内给定的给定函数的输入和输出比如values(x=>x*x,-5,5)应该产出一个对偶集合(-5,25)(-4,16)(-3,9)...(5,25)2.如何用reduceLeft得到数组中的最大元素3.用to和reduceLeft实现阶乘函数,不得使用循环或递归4.编写函数largest(fun:(Int)=>Int,inputs:Seq[Int]),输出在给

2020-07-25 09:01:54

scala数组练习

文章目录1.有一个10个位置的数组,第一个位置放的是3,后面每个位置都是前面一个位置的两倍加1,打印这个数组,然后将数组中奇数位置和偶数位置呼唤2.随机10个0到100之间的整数放入数组中,再将数组中的最大值和最小值去掉剩下的数放入新数组,数的顺序不能改变,打印数组3.输入一个整数,将这个整数的所有约束放入一个数组,打印数组1.有一个10个位置的数组,第一个位置放的是3,后面每个位置都是前面一个位置的两倍加1,打印这个数组,然后将数组中奇数位置和偶数位置呼唤package com.sunyong//

2020-07-24 11:20:15

linux定时任务介绍

# cron是一个linux下 的定时执行工具,可以在无需人工干预的情况下运行作业 一般都默认安装了#常用命令如下:# 启动服务systemctl start crond# 关闭服务 systemctl stop crond#重启服务 systemctl restart crond# 重新载入配置systemctl reload crond# 查看服务状态 systemctl status crond#查看root用户的crontab任务crontab -l#删除ro

2020-07-23 11:46:07

scala练习

下表是学生信息表,包括姓名,性别,年龄1.使用studentList集合存储以上内容,遍历studentList打印输出2.创建集合boyList、girlList、girlgt18List 、top3List、girltop3List3.把所有男生存入boyList ,女生存入girlList ,大于等于18岁的女生存入girlgt18List4.年龄最大的3个学生放入top3List,年龄最大的3个女生放在girltop3List5.计算所有学生的平均年龄,所有男生的平均年龄,所有女生的平均

2020-07-23 08:37:28

查看更多

勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取