自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_38097878的博客

原创 Spark基本原理初识与补充

文章目录SparkSpark基本原理初识基本概念执行流程总结RDD数据源普通文本文件JDBC⭐HadoopAPI⭐SequenceFile对象文件HBase⭐写在前面：小弟我在学习Spark的过程中，整理了一份思维导图（里面的内容算不上深奥，只是针对在学习过程中对Spark知识点的回顾），有兴趣的可以点击上方下载链接下载。你们的鼓励是对我最大的支持。SparkSpark基本原理初识基本概念http://spark.apache.org/docs/latest/cluster-overview.ht

2020-05-24 15:16:48 322 1

原创 SparkSQL与Hive整合（Spark-On-Hive）

Spark-On-Hive为什么要把Spark和Hive整合？Hive将SQL转成MR程序，执行速度相对较慢原理：使用SparkSQL整合Hive，其实就是让SparkSQL去加载Hive的元数据库，然后通过SparkSQL执行引擎去操作Hive表内的数据。所以，首先要开启Hive的元数据服务，让SparkSQL能够加载到元数据。1、Hive开启MetaStore服务修改：hive/conf/hive-site.xml，新增加以下配置 <property>

2020-05-18 22:42:05 833

原创 Spark的On Yarn集群模式部署及参数详解

Spark的On Yarn集群模式部署官方文档http://spark.apache.org/docs/latest/running-on-yarn.html准备工作安装启动Hadoop（需要使用HDFS和YARN）安装单机版Spark这里不需要启动集群，因为把Spark程序提交到YARN运行本质上就是把字节码给YARN集群上的JVM运行，但是有一个东西帮我们把任务提交上到YARN，所以需要一个单机版的Spark，里面有spark-shell命令 - spark-submit修改配置在

2020-05-12 16:07:16 1325

原创 Spark的StandAlone - HA高可用模式部署

StandAlone - HA高可用模式为什么要使用HA高可用模式Spark StandAlone集群是Master - Slaves架构的集群模式，和大部分的Master - Slaves结构集群一样，存在着Master单点故障问题。提问：如何解决这个单点故障的问题？Spark提供了两种解决方案基于文件系统的单点恢复（Single-Node Recovery with Local File System）基于Zookeeper的Standby Masters（Standby Masters

2020-05-12 15:03:31 304

原创 Spark的StandAlone集群模式安装部署

StandAlone集群模式的介绍与部署集群角色介绍Spark是基于内存计算的大数据并行计算框架，实际中运行计算任务肯定是使用集群模式，那么就需要了解spark自带的standalone集群模式的架构以及它的运行机制stand alone集群模式使用了分布式计算中的master - slave模型master是集群中含有master进程的节点slave是集群中worker节点含有Executor进程Spark架构图如下：Apache对spark架构的官方描述：http://spark.apa

2020-05-12 12:10:52 503

原创 Spark的本地模式安装部署与初体验

Spark开箱即用，测试使用的是：spark-2.2.0-bin-2.6.0-cdh5.14.0版本。下载地址：spark-2.2.0-bin-2.6.0-cdh5.14.0下载其他版本请访问apache官方：http://spark.apache.org/downloads.htmllocal本地模式 - Spark初体验上传与解压将压缩包上传至Linux后解压cd /export/serverstar -zxvf ./spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

2020-05-12 10:41:07 392

原创 Kettle入门精选-常用组件

文章目录可视化ETL工具——KettleKettle介绍Kettle入门案例csv - excelJson - excelMySQL - excel生成数据 - excelMySQL - 文本Json - MySQLJson - MySQLMySQL删除数据集成大数据HDFS - excelJson - HDFS集成Hivehive - excelexcel - Hive执行Hive SQL脚本...

2020-05-05 10:29:01 1377

原创 HBase API基本操作

文章目录1、在HBase中创建一张表2、向HBase的一张表中插入一条数据3、初始化一批数据到HBase的一张表中1、在HBase中创建一张表 /** * 在HBase中创建一张表 * @throws IOException */ @Test public void createTable() throws IOException { Configurati...

2020-01-02 22:00:16 167

原创 HBase的HRegionServer进程无法正常启动（java.lang.RuntimeException: HRegionServer Aborted）

错误描述：HBase集群启动后，从节点的HRegionServer无法正常启动错误发生原因：集群时间不同步解决步骤：启动时，查看异常发生节点的HBase的启动日志发现异常信息为：java.lang.RuntimeException: HRegionServer Aborted集群时间不同步导致无异常节点：异常节点：同步集群时间三台节点执行以下命令nptdate n...

2019-12-23 08:46:01 1249 1

原创 HBase理论知识总结

文章目录1、什么是HBase？2、HBase适用场景3、HBase和Hadoop之间的关系4、HBase与RDBMS（关系型数据库）的关系5、HBase特征6、HBase基础架构7、HBase的表数据模型8、HBase物理存储9、读写过程10、Region的管理11、Region Server的上下线12、HMaster的上下线13、HBase的三个重要机制flush机制compact机制spli...

2019-12-20 09:52:21 297

原创 Hbase出现：ERROR: Can't get master address from ZooKeeper; znode data == null

错误信息如下：出现此问题的可能是因为：由于hbase没有启动，或因为hbase的稳定性导致解决方法重新启动hbase即可：stop-hbase.shstart-hbase.sh

2019-12-12 08:47:10 487 1

原创 Zookeeper超详细安装与部署

文章目录安装zookeeper的注意事项下载安装包并解压配置环境变量修改zookeeper配置文件创建文件夹在zkdata文件夹下新建myid文件，myid的文件内容为：分发安装包到其他机器修改其他机器的配置文件启动配置脚本一键启动zookeeper集群安装zookeeper的注意事项安装前需要安装好JDK检测集群时间是否同步检测防火墙是否关闭检测主机与IP的映射关系下载安装包并解...

2019-12-11 09:37:39 3369 6

原创 Hive学习笔记：理论性知识总结

文章目录Hive知识点总结什么是Hive?Hive的意义（最初研发的原因）?Hive的内部组成模块，作用分别是什么?Hive支持的数据格式?进入Hiveshell窗口的方式?Hive数据库、表在HDFS上存储的路径是什么?like与rlike的区别?内部表与外部表的区别?分区表的优点是，分区字段的要求是?分桶表的优点是，分桶字段的要求是?数据导入表的方式?数据导出表的方式?order by与sor...

2019-11-28 15:28:12 519

原创 Sqoop简介及安装与部署

文章目录Apache Sqoop1、sqoop介绍Sqoop安装上传Sqoop压缩包并解压缩配置环境变量配置文件修改sqoop-env.sh添加MySql的JDBC驱动包直接拷贝/${HIVE_HOME}/lib目录下的驱动包验证启动Apache Sqoop1、sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。由来自于Apache软件基金会...

2019-11-28 09:41:09 272

原创 HDFS API常用的方法及使用

文章目录POM依赖HDFS API上传本地数据到HDFS系统删除指定路径下的文件创建文件夹及文件，并向文件中写入数据获取指定文件的日期重命名目录获取指定路径所有的文件POM依赖<repositories> <repository> <id>cloudera</id> <url>https://r...

2019-11-26 16:14:31 336

原创 Derby版Hive的安装与部署

文章目录说明开始安装部署Hive一、解压缩derby版Hive二、配置hive环境变量三、直接启动Hive四、使用MySQL共享Hive元数据1、yum安装mysql1.1、在线安装mysql相关的软件包1.2、启动mysql的服务1.3、进入mysql的客户端进行授权1.4、配置远程连接1.5、设置root用户连接mysql的密码2、修改hive的配置文件2.1修改 hive-env.sh2.2...

2019-11-21 21:04:04 737

原创 MapReduce自定义InputFormat异常：Caused by: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable

异常信息：Caused by: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable异常来源：在使用MapReduce自定义InputFormat后，运行程序抛出该异常。异常抛出后，一开始认为可能是代码中涉及类型转换出现问题。反复排查后，此可能被排除异常分析：以下是异常发生前书写的代码：自定义 InputFo...

2019-11-19 21:36:26 1304

原创在Linux系统上搭建Hadoop集群

在Linux系统上搭建Hadoop集群准备工作1、上传CDH编译后的Hadoop为什么要编译Hadoop 由于CDH的所有安装包版本都给出了对应的软件版本，一般情况下是不需要自己进行编译的，但是由于CDH给出的Hadoop的安装包没有提供带C程序访问的接口，所以我们在使用本地库（本地库可以用来做压缩，以及支持C程序等等）的时候就会出问题。...

2019-11-12 14:01:28 742 1

原创 Hadoop学习笔记：理论性知识总结

此文章用于记录在学习Hadoop过程中，对于理论性知识的总结一、Hadoop的组成部分HDFS管理者：NameNodeNameNode的作用：1、维护管理文件系统的名字空间2、负责确定指定的文件块到具体的DataNode节点的映射关系3、维护管理DataNode上报的心跳信息辅助管理者：SecondaryNameNodeSecondaryNameNode的作用工作者：...

2019-11-07 17:44:57 475 5

原创 Linux集群配置SSH免密访问

Linux集群配置SSH免密访问

2019-11-06 16:24:32 469 1

原创 Linux初始配置（不定期更新）

文章目录Linux初始配置1、关闭SELinux2、永久关闭防火墙3、配置主机名与IP地址映射关系Linux初始配置1、关闭SELinux编辑 /etc/selinux/config 文件vi /etc/selinux/config将SELINUX的值修改为：disabled2、永久关闭防火墙查看防火墙状态service iptables status | /etc/init...

2019-11-06 15:49:44 428

原创在Linux系统上安装JDK并配置环境变量

在Linux系统中安装JDK准备工作1、JDK的下载Oracle官方JDK下载链接在下载时选择Linux的 *.tar.gz 文件第一步为了方便演示，在 / 目录下创建一个 export 文件夹，并在该文件夹下创建等级的 software 和 server 文件夹...

2019-11-04 08:47:12 456

原创 Linux集群配置时间同步

准备工作1、确定是否安装了ntpd服务rpm -qa | grep ntpd如果没有安装，可以进行在线安装yum -y install ntpd查看ntpd服务的状态service ntpd status启动ntpd服务service ntpd start 设置ntpd服务开机自启动chkconfig ntpd on2、编辑第一台机器的 /etc/...

2019-10-25 15:36:00 432

原创 Linux配置本地yum源与局域网yum源

本地yum源准备工作将iso镜像文件当作存储设备挂载在Linux系统上【辛Lay】挂载ISO镜像文件到Linux系统1、iso镜像文件作为存储设备挂载完成后，进入 /etc/yum.repos.d/目录，创建bk文件夹，将目录下的5个文件备份到bk文件夹中2、拷贝bk文件夹下的CentOS-Media.repo文件到/etc/yum.repos.d/下，并修改名称为：local_y...

2019-10-23 20:58:23 840 1

原创挂载ISO镜像文件到Linux系统

挂载ISO镜像文件方式1：挂载当前系统ISO镜像文件1、更改虚拟机设置右键单击选项卡打开设置窗口选择CD/DVD勾选已连接和启动时连接2、在/mnt目录下创建cdrom文件夹做为挂载目录3、查看当前磁盘挂在情况sr0 iso9660 Centos_6.9_Final就是我们当前正在使用的Linux系统镜像文件。4、挂载iso镜像文件到目标路径再次查看磁盘挂载情况查看...

2019-10-18 14:24:23 2576

原创将一个新硬盘挂载到Linux系统上

第一步：查看当前系统磁盘挂载情况[root@node01 Packages]# lsblk -fNAME FSTYPE LABEL UUID MOUNTPOINTsda ...

2019-10-18 08:50:32 892

Spark知识点汇总

该文件是小弟在学习spark期间，将spark的所学内容汇总到一起的一个思维导图，内容包括了spark的实战代码和其他技术集成。小弟学术不精，在技术上难免会有疏忽，若有什么地方写错，望海涵并积极指出。

2020-05-24

spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

spark开箱即用，将压缩包上传到Linux即可使用命令行指令操作spark。若要部署Spark的集群模式请访问小弟的主页。

2020-05-12

zookeeper-3.4.5-cdh5.14.0.tar.gz

Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举（基于Paxos算法的实现）能够得到多数的支持，所以ZooKeeper集群的数量一般为奇数。

2019-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除