4 磊子弟弟

尚未进行身份认证

我要认证

学生党一名,以此记录自己的学习经历

等级
TA的排名 21w+

Spark基本原理初识与补充

文章目录SparkSpark基本原理初识基本概念执行流程总结RDD数据源普通文本文件JDBC⭐HadoopAPI⭐SequenceFile对象文件HBase⭐写在前面:小弟我在学习Spark的过程中,整理了一份思维导图(里面的内容算不上深奥,只是针对在学习过程中对Spark知识点的回顾),有兴趣的可以点击上方下载链接下载。你们的鼓励是对我最大的支持。SparkSpark基本原理初识基本概念http://spark.apache.org/docs/latest/cluster-overview.ht

2020-05-24 15:16:48

SparkSQL与Hive整合(Spark-On-Hive)

Spark-On-Hive为什么要把Spark和Hive整合?Hive将SQL转成MR程序,执行速度相对较慢原理:  使用SparkSQL整合Hive,其实就是让SparkSQL去加载Hive的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据。  所以,首先要开启Hive的元数据服务,让SparkSQL能够加载到元数据。1、Hive开启MetaStore服务修改:hive/conf/hive-site.xml,新增加以下配置 <property>

2020-05-18 22:42:05

Spark的On Yarn集群模式部署及参数详解

Spark的On Yarn集群模式部署官方文档http://spark.apache.org/docs/latest/running-on-yarn.html准备工作安装启动Hadoop(需要使用HDFS和YARN)安装单机版Spark这里不需要启动集群,因为把Spark程序提交到YARN运行本质上就是把字节码给YARN集群上的JVM运行,但是有一个东西帮我们把任务提交上到YARN,所以需要一个单机版的Spark,里面有spark-shell命令 - spark-submit修改配置在

2020-05-12 16:07:16

Spark的StandAlone - HA高可用模式部署

StandAlone - HA高可用模式为什么要使用HA高可用模式Spark StandAlone集群是Master - Slaves架构的集群模式,和大部分的Master - Slaves结构集群一样,存在着Master单点故障问题。提问:如何解决这个单点故障的问题?Spark提供了两种解决方案基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于Zookeeper的Standby Masters(Standby Masters

2020-05-12 15:03:31

Spark的StandAlone集群模式安装部署

StandAlone集群模式的介绍与部署集群角色介绍Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么就需要了解spark自带的standalone集群模式的架构以及它的运行机制stand alone集群模式使用了分布式计算中的master - slave模型master是集群中含有master进程的节点slave是集群中worker节点含有Executor进程Spark架构图如下:Apache对spark架构的官方描述:http://spark.apa

2020-05-12 12:10:52

Spark的本地模式安装部署与初体验

Spark开箱即用,测试使用的是:spark-2.2.0-bin-2.6.0-cdh5.14.0版本。下载地址:spark-2.2.0-bin-2.6.0-cdh5.14.0下载其他版本请访问apache官方:http://spark.apache.org/downloads.htmllocal本地模式 - Spark初体验上传与解压将压缩包上传至Linux后解压cd /export/serverstar -zxvf ./spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

2020-05-12 10:41:07

Kettle入门精选-常用组件

文章目录可视化ETL工具——KettleKettle介绍Kettle入门案例csv - excelJson - excelMySQL - excel生成数据 - excelMySQL - 文本Json - MySQLJson - MySQLMySQL删除数据集成大数据HDFS - excelJson - HDFS集成Hivehive - excelexcel - Hive执行Hive SQL脚本...

2020-05-05 10:29:01

HBase API基本操作

文章目录1、在HBase中创建一张表2、向HBase的一张表中插入一条数据3、初始化一批数据到HBase的一张表中1、在HBase中创建一张表 /** * 在HBase中创建一张表 * @throws IOException */ @Test public void createTable() throws IOException { Configurati...

2020-01-02 22:00:16

HBase的HRegionServer进程无法正常启动(java.lang.RuntimeException: HRegionServer Aborted)

错误描述:HBase集群启动后,从节点的HRegionServer无法正常启动错误发生原因:集群时间不同步解决步骤:启动时,查看异常发生节点的HBase的启动日志发现异常信息为:java.lang.RuntimeException: HRegionServer Aborted集群时间不同步导致无异常节点:异常节点:同步集群时间三台节点执行以下命令nptdate n...

2019-12-23 08:46:01

HBase理论知识总结

文章目录1、什么是HBase?2、HBase适用场景3、HBase和Hadoop之间的关系4、HBase与RDBMS(关系型数据库)的关系5、HBase特征6、HBase基础架构7、HBase的表数据模型8、HBase物理存储9、读写过程10、Region的管理11、Region Server的上下线12、HMaster的上下线13、HBase的三个重要机制flush机制compact机制spli...

2019-12-20 09:52:21

Hbase出现:ERROR: Can't get master address from ZooKeeper; znode data == null

错误信息如下:出现此问题的可能是因为:由于hbase没有启动,或因为hbase的稳定性导致解决方法重新启动hbase即可:stop-hbase.shstart-hbase.sh

2019-12-12 08:47:10

Zookeeper超详细安装与部署

文章目录安装zookeeper的注意事项下载安装包并解压配置环境变量修改zookeeper配置文件创建文件夹在zkdata文件夹下新建myid文件,myid的文件内容为:分发安装包到其他机器修改其他机器的配置文件启动配置脚本一键启动zookeeper集群安装zookeeper的注意事项安装前需要安装好JDK检测集群时间是否同步检测防火墙是否关闭检测主机与IP的映射关系下载安装包并解...

2019-12-11 09:37:39

Hive学习笔记:理论性知识总结

文章目录Hive知识点总结什么是Hive?Hive的意义(最初研发的原因)?Hive的内部组成模块,作用分别是什么?Hive支持的数据格式?进入Hiveshell窗口的方式?Hive数据库、表在HDFS上存储的路径是什么?like与rlike的区别?内部表与外部表的区别?分区表的优点是,分区字段的要求是?分桶表的优点是,分桶字段的要求是?数据导入表的方式?数据导出表的方式?order by与sor...

2019-11-28 15:28:12

Sqoop简介及安装与部署

文章目录Apache Sqoop1、sqoop介绍Sqoop安装上传Sqoop压缩包并解压缩配置环境变量配置文件修改sqoop-env.sh添加MySql的JDBC驱动包直接拷贝/${HIVE_HOME}/lib目录下的驱动包验证启动Apache Sqoop1、sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。由来自于Apache软件基金会...

2019-11-28 09:41:09

HDFS API常用的方法及使用

文章目录POM依赖HDFS API上传本地数据到HDFS系统删除指定路径下的文件创建文件夹及文件,并向文件中写入数据获取指定文件的日期重命名目录获取指定路径所有的文件POM依赖<repositories> <repository> <id>cloudera</id> <url>https://r...

2019-11-26 16:14:31

Derby版Hive的安装与部署

文章目录说明开始安装部署Hive一、解压缩derby版Hive二、配置hive环境变量三、直接启动Hive四、使用MySQL共享Hive元数据1、yum安装mysql1.1、在线安装mysql相关的软件包1.2、启动mysql的服务1.3、进入mysql的客户端进行授权1.4、配置远程连接1.5、设置root用户连接mysql的密码2、修改hive的配置文件2.1修改 hive-env.sh2.2...

2019-11-21 21:04:04

MapReduce自定义InputFormat异常:Caused by: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable

异常信息:Caused by: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable异常来源:在使用MapReduce自定义InputFormat后,运行程序抛出该异常。异常抛出后,一开始认为可能是代码中涉及类型转换出现问题。反复排查后,此可能被排除异常分析:以下是异常发生前书写的代码:自定义 InputFo...

2019-11-19 21:36:26

在Linux系统上搭建Hadoop集群

在Linux系统上搭建Hadoop集群准备工作1、上传CDH编译后的Hadoop为什么要编译Hadoop    由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于CDH给出的Hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题。...

2019-11-05 15:41:33

Hadoop学习笔记:理论性知识总结

此文章用于记录在学习Hadoop过程中,对于理论性知识的总结一、Hadoop的组成部分HDFS管理者:NameNodeNameNode的作用:1、维护管理文件系统的名字空间2、负责确定指定的文件块到具体的DataNode节点的映射关系3、维护管理DataNode上报的心跳信息辅助管理者:SecondaryNameNodeSecondaryNameNode的作用工作者:...

2019-11-07 11:35:44

Linux集群配置SSH免密访问

Linux集群配置SSH免密访问

2019-11-05 16:57:13

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享小兵
    分享小兵
    成功上传3个资源即可获取