天街小雨入江南-CSDN博客

原创如何准确计算Spark On Yarn资源消耗 - spark On Yarn内存计算

spark on yarn 内存计算摘要：相信每个写spark 的 sparker 都有过 spark on yarn 的任务提交经历，或许在你集群资源够多的情况下，我们只关注分配的资源是否能另任务顺畅的跑起来，而不会去关注生成一个spark任务最终在yarn上面消耗了多少的资源。不过如果你的集群资源并没有多到任你挥霍的程度，这篇文章可以教你如何把集群资源了如指掌。1.Continer数量计...

2019-03-13 15:21:55 4897 2

原创 SparkStreaming读取kafka两种方式对比

SparkStreaming读取kafka两种方式对比Direct方式连接kafka数据不同于receiver方式，direct方式与kafka的partition一一对应，有多少个partition就有多少个rdd分区，offset以长整形变量的形式存在，不同应用各自维护自己的offset，默认是从最新数据开始读取。一，receiver方式读取这种方式使用Receiver来获取数...

2018-08-27 11:08:37 1155

原创 Apache Drill详解

Apache Drill 调研学习一、Drill概述在大数据时代，对于Hadoop中的信息，越来越多的用户需要能够获得快速且互动的分析方法。大数据面临的一个很大的问题是大多数分析查询都很缓慢且非交互式。目前来看，MapReduce通常用于执行Hadoop数据上的批处理分析，但并不适合于你想快速得到结果或者重新定义查询参数。Google的Dremel能以极快的速度处理网络规模的海量数据。据谷歌的研究报

2017-12-14 17:36:43 25008 2

原创基于SparkStreaming的实时数据清洗

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。实时数据清洗则对于代码的性能更加的苛求。

2017-11-22 11:46:14 14019

原创二进制字节码转换出现负数

byte数组在转换成数值类型的时候出现负数？问题原因: byte是一个符号保存的，第一位是符号位。1000 0000代表的数就是-1，所以正数最大为127，负数最小为-128.而二进制流中的数据是无符号的8位二进制，转成byte的时候被当成有符号的二进制来转换，所以需要与上0xff，0xff默认被当成int类型的32位无符号整数，与上原来的数高位取0变成8位无符号数。 1000 0000变...

2018-08-27 11:17:55 1175

原创配置Hive递归查询子目录

配置Hive递归查询子目录Hive默认不递归查询子目录所以在创建表时，如果指定目录下有子目录会报ERROR:not a file,可以通过在hive-cli里面执行下面四条配置来在回话里面开启递归访问子目录，不会递归查询会把所有目录下面的数据加载进来，所以在子目录特别深或者子目录特别多时，速度会特别慢。配置： set hive.input.dir.recursive=true; set...

2018-08-27 11:11:26 6197 1

原创 Scala单例对象Object简介

Scala单例对象ObjectScala没有单例静态属性的说法，不过提供了单例对象object。单独的object并不能算是类型定义（从抽象层面来说） Object是无参的（不通过new 关键字来创建没有机会来传参） Scala的单例对象不能简单的只通过一个object实现。最好是用半生类来实现。因为单独的object在spark集群模式提交的时候容易出错（spark集群模式提交，如果...

2018-08-27 11:05:06 911

原创如何编译Hadoop

编译Hadoop在集群搭建的过程中有时候我们需要自己来编译自己集群的hadoop，原因常常有两个，一是避免因集群环境不同造成的一些错误和警告，二是一些基于源码的改动。编译步骤1.安装jdk解压jdk安装包到指定目录执行：tar -zxvf jdk-8u171-linux-x64.tar.gz -C /cloud/java 配置环境变量执行：vim /etc/...

2018-08-27 11:02:21 215

原创 Hadoop Federation HA部署

Hadoop Federation HA部署为什么要部署联合命名空间？大家都知道，hadoop集群的存储能力受限于namenode的内存，所以才会有所谓的小文件问题。在一些复杂的业务场景下，提高namenode性能成为了提高集群上限的有效途径。 HDFS Federation是 hdfs为了水平扩张namenode的存储性能，提供的多命名空间，基于Federation 搭建的集群在...

2018-08-27 10:53:39 267

原创 Spark本地化策略导致的任务执行时间异常

本地化执行时间异常这两天遇到一个很奇怪的问题，利用receiver和direct两种方式来消费kafka中的数据，官网说direct形式的效率更高但是实际效果却不是很好没有那么快。这是因为经过查看运行时间表发现，每个批次都等待了3秒的时间。因此联想到spark.locally.wait的默认等待时间是三秒因此可能是为了等待数据的本地化导致的时间延长，因此把时间调低来解决。本地化策略是为了减...

2018-05-10 15:58:28 571

原创 Spark通过receiver方式消费kafka数据时数据积压问题

Receiver方式消费kafka数据积压问题1.问题在通过receiver方式接受kafka消息时，发现有大量消息在队列中阻塞最终导致spark任务执行失败。经过排查发现，利用receiver方式来消费kafka的数据时可能会因为zk的group是首次创建或者有一段时间未消费，在程序启动的时候一次性读取进来大量的数据导致数据积压严重报错oom或者yarn资源不够而崩溃，可...

2018-05-10 15:24:46 2451

原创基于netflow的网络攻击分析与检测

基于netflow的网络攻击分析与检测前言前些年Code Red、SQL Slammer、冲击波、振荡波等蠕虫病毒相继爆发，日益频繁的DOS攻击与DDOS也让用户大为光火，这些攻击不但对用户主机造成影响，而且对网络的正常运行也构成了严重的危害，会大量占用网络带宽或网络设备系统资源。这些网络行为上都有某些共同特征，我们可以利用NetFlow的信息筛选出这些数据包，从而快速发现问题。典型网络攻击特征分析

2017-10-18 09:51:47 4332 2

原创网络安全（监测）知识入门

网络安全知识入门近日，因为工作需要，对于网络安全的一些基础的知识做了一些简单的了解，并整理成总结文档以便于学习和分享。网络安全的知识体系非常庞大，想要系统的完成学习非简单的几天就可以完成的。所以这篇文章是以实际需求为出发点，把需要用到的知识做系统的串联起来，形成知识体系，便于理解和记忆，使初学者可以更快的入门。1、什么是网络安全首先我们要对网络安全有一个基本的概念。网络安全是指网络系统的硬件、软件及

2017-10-16 16:31:26 4167

一曲长歌，一剑天涯