Jack_Roy-CSDN博客

原创【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境（复杂版的WordCount）

【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境（复杂版的WordCount）前言环境清单创建SpringBoot项目创建包创建yml编写代码前言本来是想直接扒一扒MapReduce的工作原理，但是觉得只是图解或者文字描述，没有Demo的运行体验总是无趣的，一遍走下来也没有什么成就感，因此还是要撸一撸代码的。那么谈到MapReduce的工作原理，我们的Demo首选...

2020-02-17 00:07:13 14090 5

原创【Spark3.2】io.netty.buffer.PooledByteBufAllocator.＜init＞(ZIIIIIIZ)V

【Spark3.2】io.netty.buffer.PooledByteBufAllocator.(ZIIIIIIZ前言报错解决方案后记前言在IDEA集成Spark3.2写了一个SparkStreaming程序，通过打jar包的方式提交集群运行十分顺利，但是在IDEA调试运行（local模式）main方法却抛出了异常。报错运行main方法报错：Exception in thread "main" java.lang.NoSuchMethodError: io.netty.buffer.Pooled

2022-04-22 15:50:22 4994 4

原创【hive/beeline/spark】建表多分隔符，报：org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

【hive/beeline/spark】建表多分隔符，报：org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe前言HIVE SHELL调整报错解决方案BEELINE调整报错解决方案SPARK调整解决方案后记前言大数据平台数据入湖逻辑执行方式从Impala改为beeline（连接hive）的方式后，在sql语句层面上做了一些调整（如DDL语句、分区字段等）。而后又发现，切换后hive默认不支持多字符作为行分隔符，设置多个字符==!@!==，但只会识

2022-01-19 11:06:52 2934 1

原创【XMR】/usr/bin/ld: 找不到 -lstdc++

【XMR】Could NOT find HWLOC (missing: HWLOC_LIBRARY HWLOC_INCLUDE_DIR报错明细问题分析解决办法后记报错明细安装了Centos8.4 minimal版后对xmrig挖矿程序进行无抽水编译，执行：make进行编译后报错：[root@MiWiFi-R4CM-srv build]# make[ 2%] Built target xmrig-asm[ 3%] Built target argon2-avx512f[ 4%] Bui

2021-07-18 19:32:20 1452

原创【pyspark】CDH升级后Spark写入Hbase报错问题

【pyspark】CDH升级后Spark写入Hbase报错问题前言报错找不到StringToImmutableBytesWritableConverte类报错分析解决办法找不到 org.apache.hadoop.hbase.client.Put类中的add方法问题分析解决办法后记前言之前写了一版本Spark推数程序，将hive表内容经过列式转换后写入到Hbase：【pyspark】酷酷的hive推数程序（至Hbase）现在对于集群进行了升级，升级前的版本是这样的：CDH5.1Spark1

2021-07-13 11:09:56 581

原创【启动报错】Unable to start ServletWebServerApplicationContext due to missing ServletWebServerFactory bean

Unable to start ServletWebServerApplicationContext due to missing ServletWebServerFactory bean报错明细报错原因解决办法后记报错明细远程仓库pull下来的Spring boot项目，依赖导入完成后，IDEA里运行启动类，报错：Error starting ApplicationContext. To display the conditions report re-run your application wi

2021-03-09 18:27:04 11407 3

原创目录

目录#【Spark2运算效率】第一节影响生产集群运算效率的原因之概述第二节影响生产集群运算效率之集群设置第三节影响生产集群运算效率的原因之资源缺乏第四节影响生产集群运算效率的原因之数据倾斜第五节影响生产集群运算效率的原因之小文件第六节影响生产集群运算效率的原因之网络IO...

2020-12-17 14:55:19 7326

原创【Spark2运算效率】第六节影响生产集群运算效率的原因之网络IO

【Spark2运算效率】第六节影响生产集群运算效率的原因之网络IO前言问题概述案例结语跳转前言在磁盘IO速率和网络接口IO传输速率匹配的情况下，更快的网络IO能够极大提升Spark程序Shuffle过程中Executor交换数据的速度，认识到这一点，网络IO对于集群效率的影响不言而喻，主机间可用带宽越高就意味着Spark程序数据交换速度越快；问题概述在前言中，我着重强调了主机间的可用带宽越高，Spark程序数据交换速度越快，而不是机房环境的整体网络带宽。对于整个集群的调度来说，机房带宽越高，集群整

2020-12-17 14:31:40 7329

原创【xterm】解决Xterm.js伪终端「vim无配色」问题

【Xterm】解决Xterm.js伪终端「vim无配色」问题前言现象分析解决方式结果后记前言用Vue写了一款Web端的Linux远程伪终端，功能上已较为完善，能够执行串行端口终端下的所有命令，还添加了一些特有的功能，十分灵活:现象美中不足的是，在使用vim功能进行文本编辑的时候，并不能像其他伪终端连接软件那样进行渲染：可以看到，shell脚本的内容并没有配色渲染，虽然不影响使用，但是习惯了配色编辑的我还是有点接受不了差异。分析除了执行vim命令，像ll、ls这类命令的输出都是能够正常进行配

2020-11-13 11:36:41 16008 6

原创【CDH CM版本5.13以下】解决「通过Parcel对spark2版本升级无法发现服务」问题

【CDH CM版本5.13以下】通过Parcel对spark2版本升级无法发现服务前言现象报错报错原因新升级方案操作留档准备升级升级验证版本回退回退验证后记前言公司对于CDH5.10(注意这个版本)有三个物理集群（非云服务，自有机房），其中两个作为生产，一个作为测试，。生产集群目前都处于满负荷运载的状态，随着业务数据增生，计算方面的瓶颈已较为明显。对于生产集群的性能提升团队已经想了很多办法，从jar、脚本、底层文件这些都进行了调整，虽然有效果，但还是存在不少问题。而对于分布式计算框架+引擎的spar

2020-08-24 11:44:47 14074 3

原创【spark2】“spark2 on yarn client提交模式下报错：XXXX line xx: xxxx 已杀死 ”问题剖析

【spark2】ai-bigdata-20200806.sh：行 24： 10259 已杀死 spark2-submit --driver-memory 14G --executor-memory 16G --driver-cores 2 --executors-cores 3 --num-executors 64 --conf spark.shuffle.consolidateFiles=true --conf.scheduler.listenerbus.eventqueue.size=500000

2020-08-06 12:23:49 13920

原创【kubernetes】mac下部署kubernetes

【kubernetes】mac下kubernetes的安装前言kubernetes本地版本拉取代码修改镜像源拉取镜像后记前言之前一直是使用docker-compose来管理容器，但因为其是适用于单节点宿主机管理，最近又在研究分布式容器化方案，因此需要在本地环境集成一个kubernetes环境做测试（docker已经装好），由于被称为”人民之墙“的存在，以至于不能通过docker提供的操作界面直接勾选安装docker（直接勾选拉取会一直kubernetes is starting…）查阅资料、博文之后，

2020-07-23 17:15:39 15184

原创【pyspark】酷酷的hive推数程序（至Hbase）

【pyspark】hive推数程序（至Hbase）前言效果pyspark脚本Submit脚本后记前言首先要说明博主这里的hive与Hbase是在物理隔离的两个集群里，如果是同一个集群环境的话，理论上运行速度是会更快的。采用Shell+Python编写的spark程序，client模式下，输出做了高亮处理，让运行过程更直观（cluster模式需要对输出进行微调，不然会找不到相关类的错误，这是由于lib包的问题导致的）。效果正常运行效果：异常运行效果：pyspark脚本我们直接上脚本（需要改z

2020-06-12 12:07:09 14093

原创【Hbase数据迁移】使用hbase org.apache.hadoop.hbase.mapreduce.Export 实现跨集群数据迁移

【Hbase数据迁移】使用hbase org.apache.hadoop.hbase.mapreduce.Export 实现跨集群数据迁移描述数据导出数据导入后记描述工作中，有时会碰到进行两个物理隔离的Hbase集群间数据迁移的需求，如果Hbase表足够大，那么走网络迁移路线无疑是很慢的，这种情况下走物理线路是最快选择，我们可以将生产库的表导成文本，再将这些文本移至目标库上，再执行导入命令即可。数据导出需要注意的是，该命令一定要在运行了Hbash节点实例的服务器上执行：#!/bin/bash#

2020-06-05 10:54:39 16919

原创【Centos8 】pip3 install mysql-python报错 my_config.h：No such file or directory

【Centos8 】pip3 install mysql-python报错 my_config.h：No such file or directory报错明细问题分析后记报错明细使用Centos8布置CDH环境，导入mysql-python模块时遭遇报错ModuleNotFoundError: No module named 'ConfigParser'该问题很简单，执行：cd /us...

2020-04-01 21:32:12 16626

原创【CDH6.1 spark-shell启动报错】Cluster deploy mode is not applicable to Spark shells

【CDH6.1 spark-shell启动报错】Cluster deploy mode is not applicable to Spark shells前言报错信息：解决方案前言在正常的CDH6.1后台运行spark-shell进入scala交互界面报错。报错信息：报错信息如下：Exception in thread "main" org.apache.spark.SparkExcep...

2020-02-28 23:08:54 10705

原创【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第三节 Job提交前的初始化

【Debug跟踪Hadoop3.0.0源码】第三节 jobSubmitter（提交器对象）的初始化回顾cluster与yarn的交互过程回顾上一节中我们对 jobSubmitter（提交器对象）的初始化过程进行了跟踪，查看了相关初始化的内容，下面进入==submitJobInternal(Job job, Cluster cluster)==方法中查看cluster与yarn的一些交互过程。...

2020-02-21 01:07:15 12066

原创【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第二节 jobSubmitter（提交器对象）的初始化

【Debug跟踪Hadoop3.0.0源码】第二节提交器jobSubmitter对象的初始化回顾waitForCompletion(boolean verbose)后记跳转回顾上一节中我们对 Configuration和Job对象的初始化过程进行了跟踪，查看了相关初始化的内容，下面进入waitForCompletion(boolean verbose) 方法中继续跟踪，讲述一下Clust...

2020-02-19 21:20:24 16890 1

原创【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第一节 Configuration和Job对象的初始化

【大数据入门笔记系列】第七节 Debug阅读Hadoop源码（MapReduce提交前做了什么？）前言Configuration和Job对象的初始化后记跳转前言不得不说，在此前我对阅读源码这件事是拒绝的，一方面也知道自己非读不可，另一方面是功力不够，所以数次向一些开源框架的源码发起总攻，最终都以失败而告终。那么这一次，我在已经初步阅读过MapReduce提交Job源码的基础上，根据【大数据...

2020-02-19 19:08:03 11843

原创【大数据入门笔记系列】第六节分布式计算框架MapReduce的工作流程

【大数据入门笔记系列】第六节分布式计算框架MapReduce的工作原理MapReduce分布式运算MapReduceApplicationMapReduce分布式运算MapReduce分布式运算程序至少分成两个阶段：第一阶段各个节点独立完成所分得的计算任务，这个时候各节点保持着并发运行，这便是Map阶段；第二阶段就是统计第一阶段的结果，统计实例根据统计内容可以为多个（有些统计只能有一...

2020-02-19 00:30:32 11819 1

原创【SpringBoot 远程提交MapReduce】 Error: java.lang.ClassNotFoundException: xxxxx包.xxxxx类

【SpringBoot】Error: java.lang.ClassNotFoundException: org.wltea.analyzer.core.IKSegmenter报错明细问题分析后记报错明细IDEA SpringBoot集成hadoop运行环境，本地启动项目，GET请求接口触发远程提交MapReduce任务至生产集群报错：Error: java.lang.ClassNotFou...

2020-02-17 01:28:02 12634 2

原创【SpringBoot】 ClassNotFoundException: Class com.jackroy.www.ServiceImpl.WordCountMap not found

【SpringBoot】Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.jackroy.www.ServiceImpl.WordCountMap not found报错明细问题解决后记报错明细IDEA SpringBoot集成hadoop运行环境，本地启动项目，GET请求接口触发远程提...

2020-02-17 01:15:05 12282

原创【SpringBoot】Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster报错明细问题解决报错明细IDEA SpringBoot集成hadoop运行环境，远程提交MapReduce任务至生产集群报错：Failing this attempt.Diagnostics: [2020-02-17 0...

2020-02-17 00:57:07 14686

原创【大数据入门笔记系列】第四节 NameNode元数据缓存机制

【大数据入门笔记系列】第四节 NameNode元数据缓存机制NameNode如何防止内存中的元数据无限膨胀？如何降低元数据丢失风险？SecondaryNameNodecheckpoint触发条件设定后记跳转NameNode如何防止内存中的元数据无限膨胀？客户端向分布式文件系统请求上传文件，NameNode需要写入Socket的相关元数据；客户端向分布式文件系统请求下载文件，NameNod...

2020-02-14 18:07:43 12456

原创【大数据入门笔记系列】第三节 Hdfs读、写数据处理流程

【大数据入门笔记系列】第三节 Hdfs写数据处理流程Hdfs简介写数据处理流程后记跳转Hdfs简介一般而言，Hdfs是由一个NameNode节点和若干个DataNode节点组成（非高可用，高可用还有一个SecondNameNode）。NameNode：管理分布式文件系统的元数据，这些元数据是一些诸如描述文件的存储路径以及block具体在哪些DataNode上的具体位置等；DataNod...

2020-02-14 03:07:13 15376

原创【大数据入门笔记系列】第二节 Zookeeper简介

【大数据入门笔记系列】Zookeeper简介前言Zookeeper简介选举方式脑裂问题跳转前言上一节介绍了，Zookeeper是一种分布式的、开放源码的分布式应用程序协调服务，该服务用于维护配置信息、提供分布式同步以及分组等事务。Zookeeper简介Zookeeper为其他集群提供服务，比如服务的主从选举、客户端的注册监听，Zookeeper内部也是一个集群，且通常节点的数目是奇数个（划...

2020-02-14 00:04:32 13896

原创【大数据入门笔记系列】第一节大数据常用组件

【大数据入门笔记系列】大数据常用组件大数据释义大数据组件大数据释义近些年来，坊间一直流传着这样的言论：“大数据时代，人人都在裸奔”。对于外行人来说，对于“大数据”这个词最直观的理解就是“大的数据集”，这样理解是没有错的，但对于行内人来说，这样的理解就太过苍白了。大数据究竟指的是什么？答：大数据是指在一定时间内无法用常规软件工具对其内容进行抓取、管理和处理的数据集合。适用于大数据的技术有...

2020-02-13 22:00:20 15214

原创【Spark2运算效率】第五节影响生产集群运算效率的原因之小文件

【Spark2运算效率】【Spark2运算效率】第五节影响生产集群运算效率的原因之小文件前言问题概述案例结语跳转前言关于小文件的治理方案颇多，可以回归到hdfs底层的block层面看待治理问题。，首先可以通过查询命令（hadoop dfs -count 路径）来查看路径目录下文件夹数目、文件数目及文件总大小（博主曾分享过相关的自动化脚本，有需要的可以去看看，很容易上手【小工具】 hdfs路径...

2020-02-12 19:06:23 13160 1

原创【Spark2运算效率】第四节影响生产集群运算效率的原因之数据倾斜

【Spark2运算效率】【Spark2运算效率】第四节影响生产集群运算效率的原因之数据倾斜前言倾斜实例治理过程结语跳转前言当ETL调度任务所能拥有的资源能够满足其在较为资源冗余的状况下实施运算，长时间的运算过程中可能是涉及了数据倾斜的现象；数据倾斜可以说是分布式运算中不可避免的一种现象，这种现象带来的后果就是任务执行时长会随着倾斜度的增加而变长，甚至会有Fail的风险（任务重跑）；不管是任...

2020-02-12 18:38:00 14007

原创【Spark2运算效率】第三节影响生产集群运算效率的原因之资源缺乏

【Spark2运算效率】第一节影响生产集群运算效率的原因之概述前言问题概述调整办法结语跳转前言面对复杂的业务问题，以及日益增多的需求，我们开发的脚本也越来越多，集群承载的计算量也越来越大，为了方便管理，很多企业引进或者自研出了适配的调度系统。本节的调优办法要根据自身公司调度系统的特点，进行分析后再做出相应的调试（调优一方面追求单个作业的高效性，也要使得整体作业批次的执行时长被压缩，本节是从...

2020-02-12 17:55:57 12895

原创【ketlle】本地开发kitlle job提交至linux生产环境上执行流程

【ketlle】本地开发kitlle job提交至linux生产环境上执行前言操作步骤后记前言因为kettle提供可视化界面，所以我们在本地开发的时候拖拽开发十分便捷，开发完成后，我们需要丢到测试或者生产环境中运行一下，这里介绍一下整个流程。操作步骤将整个工程打包（包含kjb和ktr），拖至线上机器，解压在某一路径下，然后进到kittle的安装路径下，找到名为kitchen.sh的脚本：...

2020-02-12 17:00:46 15115

原创【Spark2运算效率】第二节影响生产集群运算效率之集群设置

前言相较于Spark任务submit时的一些参数指定，作为资源调度框架的yarn，以及底层支撑或作为接口对接的hive与其他hadoop生态组件，它们的一些硬性指标的设置影响着任务提交后的资源申请模式及运行模式。因此，在优化我们集群的运算效率时，第一步就是将底层相关指标调整到位，下面就相关参数，给出相应的讲解。IO（磁盘IO及网络IO）就论HDFS本身而言，它往往承载着整个数仓的数据，因此...

2020-02-12 01:14:30 15216

原创【Spring boot配置模板】java远程执行shell命令(支持向多主机发起远程命令)

【Spring boot配置模板】java远程执行shell命令（支持向多主机发起远程命令）前言方案后记前言受2020年初的新型肺炎病毒影响，多日宅在家中无聊至极，就在琢磨一套调度系统，想用来管理维护大数据调度作业。写了一多半停下来整改BUG，发现切换主机环境后，发现之前写的远程shell执行引擎失灵，怎么调试作业都提不到application上（之前在公司的环境下是能够正常提交的）无奈之下...

2020-02-07 18:23:55 17106 2

原创 Centos7.6 VMware扩展磁盘空间

Centos7.6 VMware扩展磁盘空间前言扩容过程后记前言受2020年初的新型肺炎病毒影响，多日宅在家中无聊至极，昨天找了台旧笔记本(8G运行内存，256G磁盘空间)搭建CDH6.1，找到以前保存的三台虚拟机文件以及一块1T的移动硬盘后，博主将虚拟机文件均放置在移动硬盘上，便开始搭建了。性能不好的机器搭这种环境很是棘手，提前对主节点磁盘进行扩容，又花费将近八个小时搭建完成后（大部分时间...

2020-02-01 17:42:35 12994

原创【Centos7.6安装CDH6.1.0】第五节 WebUI方式安装CDH6

【Centos7.6安装CDH6.1.0】手把手教你搭建CDH6.1.0登陆CDH6.1.0安装步骤跳转登陆CDH6.1.0访问url：http://192.168.26.11:7180/cmf/login效果如下：使用以下信息登录Cloudera manager:user: adminpassword: admin进入欢迎界面：安装步骤点击继续，勾选“是的，我接受最终...

2020-02-01 04:04:13 13208 1

原创【Centos7.6安装CDH6.1.0】第四节安装并启动CM组件

【Centos7.6安装CDH6.1.0】手把手教你搭建CDH6.1.0主节点安装本地yum仓库中的CM组件从节点安装本地yum仓库中的CM组件初始化scm数据库启动CM服务跳转主节点安装本地yum仓库中的CM组件root用户下，在mini1上执行：# 安装组件yum -y install cloudera-manager-serveryum -y install cloudera-ma...

2020-02-01 03:02:04 13503

原创【Centos7.6安装CDH6.1.0】第三节 Python2.7.5安装、时钟同步及CDH本地Yum源搭建

【Centos7.6安装CDH6.1.0】手把手教你搭建CDH6.1.0下载依赖mysql配置安装jdbc建库、建用户、设置用户访问权限跳转下载依赖root用户下，创建down.sh脚本，脚本内容如下：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载后分发至mini...

2020-02-01 00:52:18 13700

原创【Centos7.6安装CDH6.1.0】第二节 JDK、Mysql配置

【Centos7.6安装CDH6.1.0】手把手教你搭建CDH6.1.0JDK（已安装者跳过）mysql配置安装jdbc建库、建用户、设置用户访问权限跳转JDK（已安装者跳过）下载linux适用版jdkhttps://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载后分发至mini...

2020-01-31 19:09:46 12907

原创【Centos7.6安装CDH6.1.0】第一节基础环境准备（yum源、host域名及免密登录）

【Centos7.6安装CDH6.1.0】手把手教你搭建CDH6.1.0基础环境配置host域名映射关闭防火墙主节点到从节点免密登录（自动化脚本）跳转基础环境选用Centos7.6(关于Centos操作系统版本无硬性要求):[root@mini1 ~]# cat /etc/redhat-releaseCentOS Linux release 7.6.1810 (Core)准备三台机器，...

2020-01-31 17:37:04 13268

原创【kettle抽取Orecle/Mysql数据至HDFS】诸如‘\u0001’等特殊分隔符表示法

【ketlle抽取Orecle/Mysql数据至HDFS】诸如‘\u0001’等特殊分隔符表示法前言设计问题分析解决办法后记前言由于需要设计一个每天多批次的定时作业，由于单端逻辑不能抽取出目标数据，其中涉及了跨库问题，因此需要从mysql、Oracle数据库中将数据同步至一个统一的环境中（hive），那么由于数据量大（百亿级），关联数据要从各个业务部门自有的数据库导入，kettle无疑成了最好...

2020-01-19 12:33:46 15368

spark-examples_2.10-1.6.4-SNAPSHOT.jar

gitlab+jenkins+docker自动化部署脚本

空空如也