6 挖矿的小强

尚未进行身份认证

我失败过,但我从未放弃过

等级
TA的排名 6w+

Spark常用函数之键-值RDD转换+实例

摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作         Ation(执...

2019-02-17 18:57:35

Impala和Hive的关系和区别

Impala和Hive的关系   Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。与Hive的关系  Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧...

2019-01-08 10:12:16

大数据系列之Flume(Flume+HDFS / Flume+Kafka)

1.flume概念flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。flume需要java运行环境,要求java1.6以上,推荐java1.7.将下载好的flume安装包解压到指定目录即可。2.flume中的重要模型2.1.1.flume Event:f...

2018-12-14 14:35:04

读取kafka写入另一个kafka

/** * Created by lmy on 2018/10/10. */public class TEST {    public static void main(String[] args) {        Properties props = new Properties();        props.put("bootstrap.servers", "host11:...

2018-12-14 10:55:19

mapreduce框架详解

我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不可分,所以当我写分布式文件系...

2018-12-14 10:03:59

spark读取HDFS多个文件配置

情况说明:数据以parquet文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示: 项目需求: 在项目中想要读取某一个月的数据,肿么办? 解决方法: spark中读取本地文件的方法如下:sparkSession.read.parquet("hdfs://path")1方法一: 要读取多个文件,文件的路径中有一...

2018-12-14 09:59:33

hive大小表join优化性能

摘要: MAPJOIN当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。另外,MAPJOIN还能解决数据倾斜的问题。MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。1、小、大表join在小表和大表进行join时,将小表放在前边,效率会高。hive...

2018-12-12 20:18:37

Spark常用函数之键值RDD转换+实例

RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作         Ation(执行):触发...

2018-12-12 14:52:19

Spark常用函数讲解之Action操作+实例

RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作         Ation(执行):触发...

2018-12-12 14:48:48

linux中crontab命令

一、crond简介crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。Linux下的任务调度分为两类,系统任务调度和用户任务调度。系统任务调度:系统周期性所要执行...

2018-12-11 18:09:18

Spark性能优化之数据倾斜调优与shuffle调优

一、数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateB...

2018-12-11 18:06:32

spark +kafka +hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory}import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Putim...

2018-12-11 15:26:11

谈谈基于Kerberos的Windows Network Authentication

前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密,确实很容易把人给弄晕;另一方面是我讲解方式有问题...

2018-12-05 10:23:12

kafka使用SASL认证

1.JAAS配置Kafka使用Java认证和授权服务(JAAS)进行SASL配置。 为broker配置JAAS KafkaServer是每个KafkaServer/Broker使用JAAS文件中的部分名称。本节为broker提供了SASL配置选项,包括进行broker之间通信所需的任何SASL客户端连接。 客户端部分用于验证与zookeeper的SASL连接。它还允许broke...

2018-12-03 09:46:59

第15课:RDD创建内幕彻底解密

内容:1.RDD创建的几个方式2.RDD创建实战3.RDD内幕 第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换实现算法RDD的3种基本的创建方式1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;3,使用HDS创建RDD其他:4,基于DB创建RDD5,基于NoSQL,例如HBase6,基于S3创建RDD7,基于数据流创建...

2018-05-13 17:32:08

spark算子:滑动窗口函数reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow这个算子也是lazy的,它用来计算一个区间里面的数据,如下图:截图自官网,例如每个方块代表5秒钟,上面的虚线框住的是3个窗口就是15秒钟,这里的15秒钟就是窗口的长度,其中虚线到实线移动了2个方块表示10秒钟,这里的10秒钟就表示每隔10秒计算一次窗口长度的数据举个例子: 如下图我是这样理解的:如果这里是使用窗口函数计算wordcount 在第一个窗口(...

2018-05-07 09:14:59

第14课:spark RDD弹性表现和来源,容错

hadoop 的MapReduce是基于数据集的,位置感知,容错 负载均衡 基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备; 基于数据集的操作不适应的场景: 1,不适合于大量的迭代 2,交互式查询 重点是:基于数据流的方式 不能够复用曾经的结果或者中间计算结果; spark RDD是基于工作集的 工作流和工作集的共同特点:位置感知,自动容错,负载均衡等。 spark的位...

2018-05-06 16:14:37

第13课:spark内核结构

2018-04-21 18:05:16

第12课:spark高可用(HA)框架

worker管理资源:内存,cpu只有standby模式的master变成active模式时才能想集群提交任务,master切换过程不会影响程序的运行原因:程序在具体运行之前已经向集群申请过资源,这些资源已经提交给driver了,也就是说已经分配好资源了,这是粗粒度分配,一次性分配资源后不需要再关心资源分配,在运行时让executor和driver自动交互,弊端是如果资源分配太多,任务运行完不会很...

2018-04-21 15:49:19

第11课:java开发spark,统计单词量

2018-04-21 15:00:39

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!