1 地球人是我哈

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 26w+

Spark 任务划分,调度,执行

Spark 任务划分,调度,执行def main(args: Array[String]): Unit = { //使用IDEA开发工具完成WordCount //local 模式 //创建SparkConf对象 val conf = new SparkConf().setMaster("local[3]").setAppName("Word Count") val sc = new SparkContext(conf) //读取文件内容 val

2020-07-03 20:44:43

Atomic原子类操作

本节思维导图:Atomic 翻译成中文是原子的意思。在化学上,我们知道原子是构成一般物质的最小单位,在化学反应中是不可分割的。在我们这里 Atomic 是指一个操作是不可中断的。即使是在多个线程一起执行的时候,一个操作一旦开始,就不会被其他线程干扰。所以,所谓原子类说简单点就是具有原子/原子操作特征的类。并发包 java.util.concurrent 的原子类都存放在java.util.c...

2019-11-13 20:19:06

四.SparkSQL

C_SparkSQL一. 概述1. 什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrameDataSet并且作为分布式SQL查询引擎的作用。众所周知的Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率

2020-07-01 19:25:08

五.SparkStreaming

E. SparkStreaming一.SparkStreaming概述1. SparkStreaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Str

2020-06-30 20:25:10

Kerberos 与hadoop组件之间的认证问题 持续更新

ICMP Port UnreachableCaused by: javax.security.auth.login.LoginException: ICMP Port Unreachable at com.sun.security.auth.module.Krb5LoginModule.attemptAuthentication(Krb5LoginModule.java:808) at com.sun.security.auth.module.Krb5LoginModule.login(Krb5L.

2020-06-30 18:25:31

三.Spark_RDD(下)

C_Spark_RDD(下)一. RDD中的函数传递1. 传递一个方法package cn.xhjava.spark.rdd.funcationtransmitimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在实际开发中我们往往需要自己定义一些对于RDD的操作, * 那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端

2020-06-29 20:47:40

二.Spark_RDD(上)

B_Spark_RDD(上)一. RDD概述1. 什么是RDDRDD(Resilient DistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2. RDD的属性一组分区(Partition),即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数一个列表,存储存放每个Partition的优先位置3. RDD的特点RD

2020-06-29 20:45:41

一.Spark基本介绍

A_Spark基本介绍一.Spark历史所以,Yarn问世了,Yarn由ResourceManager和NodeManager组成ResourceManager(RM)的主要作用处理客户端的请求(Spark-submit提交job)监控NodeManager(监控节点状态)启动或监控ApplicationMaster,每一个运行在yarn上的程序,都存在一个ApplicationMaster,只是该AM是随机在任意一个NodeManager上创建的资源的分配与调度NodeManag

2020-06-29 20:20:16

hudi-hive-sync

hudi-hive-syncSyncing to Hive 有两种方式:在hudi 写时同步使用run_sync_tool.sh 脚本进行同步1. 代码同步val spark = SparkSession .builder() .config(sparkConf) .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate()

2020-06-02 11:26:02

java jdbc连接kerberos认证hive

hive 集成kerber后,jdbc连接操作hivepublic static void main(String[] args) throws Exception { System.setProperty("java.security.krb5.conf", "E:\\conf\\xh\\local\\krb5.conf"); Configuration config = new Configuration(); UserGroupInformation.

2020-05-29 10:50:09

SparkStreaming Kafka Kerberos 认证问题

目前在公司开发SparkStreaming 消费kafka数据,因为hadoop集群启用了kerberos认证,走了不少弯路,现在记录一下:代码使用local模式跑是完全ok的,但是run on yarn 上,一直报错:Exception in thread "main" org.apache.kafka.common.KafkaException: Failed to construct kafka consumer at org.apache.kafka.clients.consumer.Kafk

2020-05-26 09:43:23

Group coordinator lookup failed: The coordinator is not available.问题

背景:最近使用的项目中用到了kafka,并且需要集成kerberos.这边kerberos认证已经通过,但是在消费的时候一直拉不到数据,随后使用shell命令在服务器上消费数据,结果一样。后面更改日志级别,发现一直循环打印如下日志:2020-05-21 10:05:06.651 [ForkJoinPool-1-worker-5] DEBUG org.apache.kafka.clients.Metadata - Updated cluster metadata version 133 to Cluste

2020-05-21 10:41:53

hadoop相关问题报错

SIMPLE authentication is not enabled. Available:[TOKEN, KERBEROS]hadoop集成kerberos,多半是因为kerberos认证hadoop时,hadoop的配置文件没有被加载或者是加载不正确

2020-05-08 20:12:02

java中的动态绑定机制

java中的动态绑定机制1. 简单版public class Test { public static void main(String[] args) { Father father = new Son(); System.out.println(father.getResult());//40 //这段代码很简单,java中多态的特性...

2020-04-27 20:28:12

Kerberos 安装与hadoop组件集成

Kerberos 安装与hadoop组件集成一. kerberos 安装yum -y install krb5-libs krb5-server krb5-workstation安装成功后,修改kerberos必需文件1. vim /etc/krb5.conf#注意修改被注释的内容# Configuration snippets may be placed in this dire...

2020-04-25 15:52:02

maven package,logback采集日志,jar包启动脚本模板

maven paakage,logback采集日志,jar包启动脚本模板一. logback.xml1. pom依赖<dependencies> <!-- logback必备依赖 --> <dependency> <groupId>org.slf4j</groupId> <art...

2020-04-23 14:20:14

Spark Submit源码阅读

Spark Submit 提交流程1. SparkSubmit//SparkSubmit//1.进入main方法def main(args: Array[String]): Unit = { val submit = new SparkSubmit() submit.doSubmit(args) //走doSubmit()}//2.doSubmit()def doS...

2020-04-17 10:06:44

Avro通过schema写.avro文件

导入依赖<dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.9.2</version></dependency>构造scheam{ \"type\...

2020-04-09 21:03:03

Linux 系统挂载磁盘

查看所有磁盘信息fdisk -l编辑一个分区fdisk /dev/sda创建磁盘分区mn一直回车(默认使用默认值)w:最后保存退出再次查看磁盘,你会发现该磁盘下多了一个分区1格式化磁盘mkfs -t xfs /dev/sdba1挂载mount /dev/sdb1 /data最后设置开机自动挂载vim /etc/fstab//添加一条数据/dev/sda1 ...

2020-04-01 11:19:53

SparkSQLBroadcast join实例

最近做sparksql的优化,需要用到sparksql broadcast join,之前在网上找了好多资料,发现介绍理论的偏多,实际操作案例较少,在此记录:Broadcast join:大表关联小表时使用. 比如:百亿级别的大表对千条数据量的小表进行关联查询时。众所周知,在spark中进行...

2020-04-01 10:38:27

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取