3 Xlucas

尚未进行身份认证

做自己,做一个最普通的分享者

等级
TA的排名 6k+

HBase中wal文件过多导致Zookeeper异常问题

最近hbase出现了大量KeeperErrorCode = ConnectionLoss for /hbase/splitWAL 异常,而且在重启hbase的时候,没有办法启动hbase,经过仔细诊断之后发现是由于hbase的WAL文件非常多(达到30TB),导致hbase在zk的节点(存储WAL文件信息的节点)超过4096*1024 默认大小,无法正常提供服务。因此,hbase master无法...

2019-12-04 13:19:05

top命令讲解

top命令经常用来监控Linux的系统状态,如CPU、内存的使用情况各个参数的含义:第一行 : 08:03:50 -当前系统时间;366 days,12:33-系统已经运行了366天12小时33分钟;25 users表示当前有25个用户登录系统;load average:0.18,0.20,0.16 -load average后面的2个数分别是1分钟、5分钟、15分钟的负载情况。Load av...

2019-11-06 07:41:29

理解Linux调优参数

1、处理器参数**CPU utilization:**直观地描述了每个CPU的利用率,在Xseries架构中如果CPU的利用率长时间超过80%,就有可能出现处理器的瓶颈**Runable processes :**描述了正在准备被执行的进程。在一个持续时间里,这个值不应该超过物理CPU数量的10倍,否则CPU方面就可能存在瓶颈**Blocked:**描述了那些因为等待IO操作结束而不能被执行...

2019-10-29 08:40:44

Hadoop任务操作命令

HADOOP 上经常会对一个application进行一系列操作:操作命令如下:yarn application -list 查看yarn上面所有的applicationyarn application -list -appStates RUNNING 查看 yarn上面真正running的applicationyarn application -list -appTypes ...

2019-10-14 08:12:50

NameNode和DataNode之间的交互

简介HDFS的设计核心是提高处理数据的吞吐量而不是低延迟,因此更适合数据的批处理,而非交互式处理,HDFS弱化了一些POSIX语义以获求吞吐量提升。HDFS对存储在其上的数据使用了一次写入多次读取的文件控制模型,一旦一个文件被写入并且存储到HDFS系统上,只可以追加写入该文件而不能修改,从而达到提高吞吐量的目标NameNode可以执行以下HDFS功能1、执行所有的HDFS操作,如打开/关闭文...

2019-10-09 08:26:18

Hadoop运行过程中错误解决

错误信息:Container [pid=64555,containerID=container_1563447435119_3196879_01_000107] is running beyond physical memory limits. Current usage: 3.4 GB of 3 GB physical memory used; 5.2 GB of 12.6 GB virtual...

2019-10-08 08:14:40

linux随机数据

1、Linux uuiduuid 全称是通用唯一识别码,格式包含32个16进制数字,以’-'连接号分为5段。形式为8-4-4-4-12 的32个字符cat  /proc/sys/kernel/random/uuid  [root@SZD-L0090513 filebeat]# cat /proc/sys/kernel/random/uuidc5e50...

2019-10-08 08:10:07

Python中socket遇到的几个问题

今天在进行一些简单的socket编程的时候,遇到了几个问题1、AttributeError: module ‘socket’ has no attribute ‘AF_INET’上面是socket编程的时候脚本名字就是socket出现了关键字2、TypeError: a bytes-like object is required, not ‘str’类型问题,这个在socket中,这个就是...

2019-06-23 23:39:19

Druid在Hadoopindex的时候异常

Caused by: com.google.inject.CreationException: Unable to create injector, see the following errors:1) An exception was caught and reported. Message: null at com.google.inject.util.Modules$Overrid...

2019-03-10 23:00:25

druid.io在安装过程出现元数据库异常问题

在我们启动coordinator的时候用来刷新元数据库,但是发现出现表刷入失败,可以在日志里查看到字符编码问题可以使用mysql的修改字符编码,这个地方和官网的字符编码有点不一样ALTER DATABASE druid DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci2019-02-26T00:20:54,163 WARN [main...

2019-02-26 00:43:07

SparkContext原理解析和源码解析

SparkContext主要介绍下面几个点TaskSchedulerDAGSchedulerSparkUI环境是spark1.6.3TaskScheduler初始化机制createTaskScheduler()->TaskSchedulerImpl->SparkDeploySchedulerBackend->initialize()->ScheduleP...

2019-01-27 23:01:52

Spark内核架构解析

本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler3、DAGScheduler会将job划分为多个stage,然后每个stage创建一个Taskset4、T...

2019-01-24 23:32:13

Spark中topN和groupTopn讲解

Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairRDD里面的key和value尽量都保存成一样的2、在采用sortByKey对key进行排序3、在采用M...

2019-01-14 01:26:25

Spark二次排序的操作

二次排序原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果例如输入这样的文件,xlucas1 18 aaxlucas2 18 bbxlucas 19 ccaa 20 xlucasaa 17 xlucasxlucas1 17 ccyy 29 xlucas希望输出的结果是从大到小排序yy 29 xlucasxlucas...

2019-01-03 00:24:31

Spark排序--交换排序

之前我们写过简答的worldcount统计的代码,但是我们如何做到按照value来排序呢??伪代码如下 // 执行我们之前做过的单词计数 JavaRDD<String> lines=line.flatMap(new FlatMapFunction<String, String>() { @Override ...

2018-12-28 23:32:05

Spark共享变量

        Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。    Spark...

2018-12-24 00:51:11

RDD持久化原理

          Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景...

2018-12-23 23:40:08

Spark中Action的讲解

主要讲解一下reduce,collect,count,take,saveAsTextFile,countByKeyreduce讲解 // 使用reduce操作对集合中的数字进行累加 // reduce操作的原理: // 首先将第一个和第二个元素,传入call()方法,进行计算,会获取一个结果,比如1 + 2 = 3 //...

2018-12-22 00:06:41

Spark中Transformation的讲解

主要讲解一下map,filter,flatMap,groupByKey,reduceByKey,sortByKey,join,cogroupmap讲解List<Integer> list= Arrays.asList(1,2,3,4,5,6,7,8,9,10); JavaRDD<Integer> line=sc.parallelize(list); ...

2018-12-21 00:27:22

创建RDD创建方式

RDD的创建方式1、集合创建RDD2、使用本地文件创建RDD3、使用HDFS文件创建RDD集合创建RDD1、如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是一个RDD。相当于是,集合中的部分数据会到一个节点上,而另一部分数据会到其他节点上。然后就...

2018-12-17 01:05:59

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。