3 Xlucas

尚未进行身份认证

做自己,做一个最普通的分享者

等级
TA的排名 6k+

Hadoop任务操作命令

HADOOP上经常会对一个application进行一系列操作:操作命令如下:yarnapplication-list查看yarn上面所有的applicationyarnapplication-list-appStatesRUNNING查看yarn上面真正running的applicationyarnapplication-list-appTypes...

2019-10-14 08:12:50

NameNode和DataNode之间的交互

简介HDFS的设计核心是提高处理数据的吞吐量而不是低延迟,因此更适合数据的批处理,而非交互式处理,HDFS弱化了一些POSIX语义以获求吞吐量提升。HDFS对存储在其上的数据使用了一次写入多次读取的文件控制模型,一旦一个文件被写入并且存储到HDFS系统上,只可以追加写入该文件而不能修改,从而达到提高吞吐量的目标NameNode可以执行以下HDFS功能1、执行所有的HDFS操作,如打开/关闭文...

2019-10-09 08:26:18

Hadoop运行过程中错误解决

错误信息:Container[pid=64555,containerID=container_1563447435119_3196879_01_000107]isrunningbeyondphysicalmemorylimits.Currentusage:3.4GBof3GBphysicalmemoryused;5.2GBof12.6GBvirtual...

2019-10-08 08:14:40

linux随机数据

1、Linuxuuiduuid 全称是通用唯一识别码,格式包含32个16进制数字,以’-'连接号分为5段。形式为8-4-4-4-12的32个字符cat /proc/sys/kernel/random/uuid  [root@SZD-L0090513filebeat]#cat/proc/sys/kernel/random/uuidc5e50...

2019-10-08 08:10:07

Python中socket遇到的几个问题

今天在进行一些简单的socket编程的时候,遇到了几个问题1、AttributeError:module‘socket’hasnoattribute‘AF_INET’上面是socket编程的时候脚本名字就是socket出现了关键字2、TypeError:abytes-likeobjectisrequired,not‘str’类型问题,这个在socket中,这个就是...

2019-06-23 23:39:19

Druid在Hadoopindex的时候异常

Causedby:com.google.inject.CreationException:Unabletocreateinjector,seethefollowingerrors:1)Anexceptionwascaughtandreported.Message:nullatcom.google.inject.util.Modules$Overrid...

2019-03-10 23:00:25

druid.io在安装过程出现元数据库异常问题

在我们启动coordinator的时候用来刷新元数据库,但是发现出现表刷入失败,可以在日志里查看到字符编码问题可以使用mysql的修改字符编码,这个地方和官网的字符编码有点不一样ALTERDATABASEdruidDEFAULTCHARACTERSETutf8COLLATEutf8_general_ci2019-02-26T00:20:54,163WARN[main...

2019-02-26 00:43:07

SparkContext原理解析和源码解析

SparkContext主要介绍下面几个点TaskSchedulerDAGSchedulerSparkUI环境是spark1.6.3TaskScheduler初始化机制createTaskScheduler()->TaskSchedulerImpl->SparkDeploySchedulerBackend->initialize()->ScheduleP...

2019-01-27 23:01:52

Spark内核架构解析

本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler3、DAGScheduler会将job划分为多个stage,然后每个stage创建一个Taskset4、T...

2019-01-24 23:32:13

Spark中topN和groupTopn讲解

Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairRDD里面的key和value尽量都保存成一样的2、在采用sortByKey对key进行排序3、在采用M...

2019-01-14 01:26:25

Spark二次排序的操作

二次排序原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果例如输入这样的文件,xlucas118aaxlucas218bbxlucas19ccaa20xlucasaa17xlucasxlucas117ccyy29xlucas希望输出的结果是从大到小排序yy29xlucasxlucas...

2019-01-03 00:24:31

Spark排序--交换排序

之前我们写过简答的worldcount统计的代码,但是我们如何做到按照value来排序呢??伪代码如下//执行我们之前做过的单词计数JavaRDD<String>lines=line.flatMap(newFlatMapFunction<String,String>(){@Override...

2018-12-28 23:32:05

Spark共享变量

        Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。    Spark...

2018-12-24 00:51:11

RDD持久化原理

          Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景...

2018-12-23 23:40:08

Spark中Action的讲解

主要讲解一下reduce,collect,count,take,saveAsTextFile,countByKeyreduce讲解//使用reduce操作对集合中的数字进行累加//reduce操作的原理://首先将第一个和第二个元素,传入call()方法,进行计算,会获取一个结果,比如1+2=3//...

2018-12-22 00:06:41

Spark中Transformation的讲解

主要讲解一下map,filter,flatMap,groupByKey,reduceByKey,sortByKey,join,cogroupmap讲解List<Integer>list=Arrays.asList(1,2,3,4,5,6,7,8,9,10);JavaRDD<Integer>line=sc.parallelize(list);...

2018-12-21 00:27:22

创建RDD创建方式

RDD的创建方式1、集合创建RDD2、使用本地文件创建RDD3、使用HDFS文件创建RDD集合创建RDD1、如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。相当于是,集合中的部分数据会到一个节点上,而另一部分数据会到其他节点上。然后就...

2018-12-17 01:05:59

Spark本地worldcount详细讲解(Scala版本)以及流程

主要介绍Scala来写spark代码的流程packagecom.xlucasimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContext/***CreatedbyXlucason2018/12/16.*/objectWordCo...

2018-12-16 15:11:23

Spark本地worldcount详细讲解(Java版本)

packagecom.xlucas;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;impor...

2018-12-12 23:37:44

Spark核心编程原理

2018-12-11 23:54:05

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。