自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 PL/Java的安装及使用

pljava

2022-11-24 16:59:31 1012 1

原创 PXF编译安装

PXF 安装

2022-11-24 15:43:13 1139

原创 解决yarn上的MapReduce作业失败问题container XXXX is running beyond physical memory limits

yarn Killing container

2022-11-14 10:58:23 943 1

原创 【Git冲突】pull遇到错误:error: Your local changes to the following files would be overwritten by merge:

git stash的时候会把你本地快照,然后git pull 就不会阻止你了,pull完之后这时你的代码并没有保留你的修改。是因为远程不存在origin这个仓库名称,可以使用如下操作方法,查看远程仓库名称以及路径相关信息,可以删除错误的远程仓库名称,重新添加新的远程仓库;这时候执行git stash pop你去本地看会发现发生冲突的本地修改还在,这时候你该commit push啥的就悉听尊便了。然后用远程的代码直接覆盖本地就好了。这种情况下,如何保留本地的修改同时又把远程的合并过来呢?

2022-10-08 14:55:22 181

原创 hive Sql列转行使用explode的注意事项-null值处理

ive Lateral View explode字段值为空时,导致数据异常丢失解决方案

2022-09-16 16:37:24 1182 2

原创 Flink时间语义和Flink Window

Flink时间语义和Flink Window1、Flink时间语义1、Flink时间语义Flink实时计算划分窗口时,如果使用时间作为划分窗口的依据,时间有不同的类型,分为Event Time、Ingestion Time、Processing Time。如下图所示:Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入Flink的时间。

2021-12-31 11:25:40 272

原创 【datax】mysqlreader 同步json格式数据中文乱码

【datax】mysqlreader 同步json格式数据中文乱码背景:之前公司中的产品使用的业务库是PG库,使用datax同步json数据并没有中文乱码,后来接新产品的业务数据,使用的是Mysql库,线上客户反应银行名称乱码。原因:json数据中文乱码问题与useUnicode=true&characterEncoding=utf-8无关,useUnicode=true&characterEncoding=utf-8只是代码规范。这是datax的jdbc连接工具mysql-co

2021-12-30 15:35:45 1522

原创 【datax】mongodbreader读取array/dict类型的字段非标准json格式的解决方法

mongodbreader读取array/dict类型的字段非标准json格式的解决方法修改源码:mongodbreader/src/main/java/com/alibaba/datax/plugin/reader/mongodbreader/MongoDBReader.javapackage com.alibaba.datax.plugin.reader.mongodbreader;import java.util.ArrayList;import java.util.Arrays;impo

2021-12-30 15:12:23 1219

原创 Linux根目录扩容

Linux根目录扩容1、查看Linux磁盘情况1、查看Linux磁盘情况df -lhlsblk命令 用于列出所有可用块设备的信息,并且显示他们之间的依赖关系。新建磁盘分区fdisk /dev/vda更改新分区磁盘类型保存分区操作并重启操作系统格式化分区mkfs.xfs /dev/vda3 创建新的物理卷pvcreate /dev/vda3#pvcreate命令 用于将物理硬盘分区初始化为物理卷,以便LVM使用。查看 lvm 卷组信息vgdisplay#v

2021-12-15 22:44:16 1910

原创 Hive报错FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

Hive报错Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask1、集群环境2、错误由来3、错误原因4、错误分析5、解决办法1、集群环境CDH集群,hive的引擎是mr。2、错误由来今天在测试环境的集群里跑hive任务,报错Error while processing statement: FAILE

2021-11-10 13:59:44 14718

原创 CDH集群配置目录汇总

CDH集群配置目录汇总1、CDH目录汇总2、CM详解2.1 Service Monitor:2.2 Host Monitor:2.3 server/agent配置目录2.4 server/agent日志目录2.5 Parcels包安装目录2.5.1 服务软件包数据(parcels)2.5.2 服务软件包缓存数据2.6 CDH配置数据库连接信息脚本目录3、CDH安装路径4、CDH组件详解4.1 组件安装目录4.2 组件配置路径4.3 组件shell客户端命令4.4 组件日志目录4.5 服务运行时所有组件的配置

2021-11-02 17:09:33 4635 1

原创 Spark中的基本概念

Spark中的基本概念1、基本概念1.1 RDD:弹性分布式数据集1.2 DAG:有向无环图1.3 Partition:数据分区1.4 NarrowDependency: 窄依赖1.5 ShuffleDependency: 宽依赖2、Spark基本组件2.1 Application2.2 Driver2.3 Executor2.4 Worker2.5 Job2.6 Stage2.7 Task2.8 DAGScheduler2.9 TaskScheduler2.10 总结1、基本概念1.1 RDD:弹性分

2021-10-15 15:38:49 1468

原创 同一条sql语句 ,使用Spark Sql 和 hive Sql查询数据结果不一致

同一条sql语句 ,使用Spark Sql 和 hive shell 查询数据结果不一致1、sql语句2、spark sql 执行结果3、hive sql 执行结果4、原因Hive写入Parquet/Orc表时,实现了自己的一个SerDe,Spark觉的Hive的SerDe性能比较低,于是实现了自己的SerDe。因此碰到Parquet、Orc的表数据写入时,SparkSQL默认使用自己内部的SerDe。5、解决方式.config(“spark.sql.hive.convertMetast

2021-10-12 13:47:45 1894

原创 kafka安装部署及命令行使用

kafka安装部署1、集群规划2、jar包下载3、集群部署3.1 解压安装包3.2 修改解压后的文件名称3.3 在/opt/module/kafka目录下创建logs文件夹3.4 修改配置文件3.5 配置环境变量3.6 分发安装包3.7 修改broker.id3.8 启动集群3.9 关闭集群3.10 kafka群起脚本4 Kafka命令行操作4.1 查看当前服务器中的所有topic1、集群规划hadoop102hadoop103hadoop104zkzkzkkafkak

2021-09-08 20:51:16 262

原创 使用Maven发布第三方jar到本地仓库

使用Maven发布第三方jar到本地仓库1、查看本地Maven版本2、发布第三方jar到本地仓库maven命令详解3、命令行中执行mvn命令4、本地仓库查看jar包1、查看本地Maven版本~ % mvn -versionApache Maven 3.6.2 (40f52333136460af0dc0d7232c0dc0bcf0d9e117; 2019-08-27T23:06:16+08:00)Maven home: /Users/zyh/software/maven/apache-maven-3

2021-09-02 15:20:34 269

原创 Spark SQL 小文件问题

Spark SQL 小文件问题1、 小文件现象2、小文件产生的原因3、小文件的危害4、如何解决小文件问题4.1 spark-sql adaptive框架解决小文件问题4.2 举例1、 小文件现象文件大小只有几KB,数量有4800个。2、小文件产生的原因在使用spark sql处理数据的过程中,如果有shuffle产生,依赖于spark.sql.shuffle.partitions配置信息,默认为200,当处理的数据量比较大时,通常会把该值调大,以避免单个分区处理的数据太大出现异常或者拖慢整个任务

2021-08-24 17:04:31 2583

原创 Linux之ssh免密登录

Linux之ssh免密登录1、ssh免密登录原理1、ssh免密登录原理在这里插入图片描述

2021-08-05 20:01:06 3648

原创 Centos7安装Mysql5.7

Centos7安装Mysql5.71、查看linux操作系统版本和系统内核版本2、下载mysql5.7的rpm安装包3、卸载旧版Mysql或Mariadb4、安装mysql5.7所需要的依赖5、上传Mysql安装包解压并安装5.1、解压5.2、安装6、查看mysql5.7的状态,没有启动则把mysql启动7、登陆mysql修改root密码7.1、查看临时密码7.2、用临时密码登录mysql7.3、开启远程连接,允许远程连接数据库问题1、查看linux操作系统版本和系统内核版本 # 查看操作系统版本 c

2021-08-04 22:15:22 493

原创 Centos7安装Python3.8

Centos7安装Python3.8安装安装python3.8中存在的问题编译安装python3的时候遇到No module named '_ssl'的问题make遇错误安装1.安装相应的编译工具在root用户下(不要用普通用户,麻烦),全部复制粘贴过去,一次性安装即可.yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-dev

2021-08-04 16:08:37 458

原创 File类和IO流

文件和IO流1 File类的使用1.1 File类的理解1.2 File的实例化1.2.1 常用构造器1.2.2 路径的分类1.2.3 路径分隔符1.3 File类的常用方法2 IO流的概述2.1 流的分类2.2 流的体系结构2.3 重点说明的几个流结构2.4 输入、输出的标准化过程2.4.1 输入过程2.4.2 输出过程3 节点流(文件流)3.1 FileReader/FileWriter的使用3.1.1 FileReader的使用3.1.2 FileWriter的使用3.1.3 文本文件的复制:3.2

2021-01-08 14:37:01 169

原创 Hadoop的HA搭建

Hadoop的HA搭建一、hdfs的HA ZK NN DN RM NM JN ZKFCnode1 1 1 1 1 1node2 1 1 1 1 1 1 1node3 1 1 1 11、关闭防火墙service iptables stop2、时间同步yum install ntpntpdate -u s2c.time.edu.cn或者date -s 2018050...

2019-12-30 22:13:46 111

原创 关于集群namenode做HA后产生hdfs路径改变的问题

关于集群namenode做HA后产生hdfs路径改变的问题报错:FAILED: SemanticException Unable to determine if hdfs://master:9000/user/hive/warehouse/study.db/hive1 is encrypted: java.lang.IllegalArgumentException: Wrong FS: hdf...

2019-12-30 21:30:02 470

原创 hive启动报错Caused by: java.net.UnknownHostException: cluster ... 21 more

hive启动报错Caused by: java.net.UnknownHostException: cluster … 21 morehadoop配置HA后启动hive报错[root@master hadoop]# hiveLogging initialized using configuration in jar:file:/usr/local/soft/hive-1.2.1/lib/...

2019-12-30 19:54:00 3407

Hive笔记

1.Hive简介1.1 Hive是什么Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是:将SQL转换为MapReduce程序。1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高。1...

2019-12-29 21:32:52 457

原创 Hive 练习题

Hive练习题数据2018/6/1,102018/6/2,112018/6/3,112018/6/4,122018/6/5,142018/6/6,152018/6/7,132018/6/8,372018/6/9,182018/6/10,192018/6/11,102018/6/12,112018/6/13,112018/6/14,122018/6/15,14结果...

2019-12-29 20:15:49 1518

原创 MapReduce概述

1、MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。...

2019-12-24 23:33:47 852

原创 如何kill掉hadoop正在执行的jobs

当MapReduce任务不能正常执行时,我们可以将该任务kill掉。使用 hadoop job -list 列出当前hadoop正在执行的jobs。可以查看到job任务的编号,然后使用命令:hadoop job -kill job编号 来杀死该job任务。...

2019-12-24 11:19:29 1985

原创 sqoop使用

1、相关参数介绍1.1 sqoop参数1.2 导入 import1.3 导出 export2、sqoop使用案例说明:使用下方命令需要在/etc/profile中配置SQOOP_HOME;如未配置,需要在sqoop安装目录下使用bin/sqoop命令格式。2.1 测试Sqoop是否能够成功连接数据库命令:sqoop list-databases --connect jdbc...

2019-12-23 22:37:39 201

原创 HDFS入门理解

1、HDFS概述1.什么是HDFS?HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是由很多服务器联合起来实现其功能,且集群中的服务器各有各自的角色;是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS使用场景:一次写入,多次读出的场景,且不支持对文件的修改。正因为如此,HDFS适合用来做大数据分析的底层存储...

2019-12-21 16:06:11 256 2

原创 hadoop概述

1、 Hadoop介绍从狭义上来说,Hadoop是指适合海量数据分布式存储和分布式计算的平台,它有三大核心组件:HDFS(分布式文件系统):解决海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNodeYARN(作业调度和集群资源管理的框架):解决资源任务调度,集群中的角色主要有:ResourceManager、NodeManagerMAP...

2019-12-21 15:38:18 519

原创 Hadoop集群的搭建

1、Hadoop集群搭建HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。1.1 虚拟机环境VMware Workstation Pro 15.0Centos 6.5 64bit内存4G,硬盘50G,采用NAT方式联网。安装好linux/boot 200M/swap 2g/ 剩余1.2 安装JDK(以root为例)1.2....

2019-12-20 20:52:12 224

原创 对并行和并发的理解

对并行和并发的理解并发(concurrency)并行(parallelism)简单理解并发(concurrency)指宏观上看起来两个程序在同时运行,比如说在单核cpu上的多任务。但是从微观上看两个程序的指令是交织着运行的,你的指令之间穿插着我的指令,我的指令之间穿插着你的,在单个周期内只运行了一个指令。这种并发并不能提高计算机的性能,只能提高效率并行(parallelism)指严格物理意...

2019-12-17 11:18:29 281 1

原创 XML解析之DOM4J的增删改查

DOM4J介绍DOM4J是一个Java的XML API,是jdom的升级品,用来读写XML文件的。dom4j是一个十分优秀的JavaXML API,具有性能优异、功能强大和极其易使用的特点。其优点: DOM4J使Java开发的灵活性和XML解析代码易于维护。它是轻量级的,快速的API。使用Dom4j开发,需下载dom4j相应的jar文件。官网DOM4J的jar文件下载地址 笔者也在这里提...

2019-11-28 21:30:02 413 2

原创 java语言if-else笔试题

笔试题public class Demo02 { public static void main(String[] args) { int x = 4; int y = 1; if (x > 2) { if (y > 2) System.out.println(x + y); System.out.println("浩"); } else ...

2019-11-06 23:27:17 338

原创 判断平年闰年的JAVA代码

所谓闰年,就是指 2 月有 29 天的那一年。闰年同时满足以下条件:1.年份能被 4 整除。2.年份若是 100 的整数倍,须被 400 整除,否则是平年。例如,1900 年能被 4 整除,但是因为其是 100 的整数倍,却不能被 400 整除,所以是平年;而 2000 年就是闰年;1904 年和 2004 年、2008 年等直接能被 4 整除且不能被 100 整除,都是闰年;2014 是平...

2019-11-06 19:57:48 1712

原创 Java中数据类型转换

数据类型转换隐式转换(自动类型转换)如果以下 2 个条件都满足,那么将一种类型的数据赋给另外一种类型变量的时,将执行自动类型转换(automatic type conversion)。1.两种数据类型彼此兼容2.目标类型的取值范围大于源数据类型(低级类型数据转换成高级类型数据)3.例如 byte 类型向 short 类型转换时,由于 short 类型的取值范围较大,会自动将 byte 转...

2019-11-06 19:45:00 240

原创 java 环境变量配置

WIN 10配置Java环境变量首先,下载JDK安装JDK配置环境变量打开此电脑,右键 This PC(此电脑) -> Properties(属性) -> Advanced system settings(高级系统设置) -> Environment Variables(环境变量)...新建JAVA_HOME 变量输入新建/修改 CLASSPATH 变量修改Path 变量首先,...

2019-11-04 20:10:59 269

原创 Android Studio的下载、安装及配置教程以及与夜神模拟器调试

本学期开了Android课程,需要安装开发软件,但是大多数同学在安装android studio过程中都遇到各种各样的问题,本人就个人安装过程作如下介绍,欢迎各位指正!一、Android Studio下载因为Android Studio是Google公司旗下软件,在官网上下载一般都比较慢。因此我们可以Android studio 中文社区下载最新版本Android studio和SDK。两者的...

2019-09-22 17:47:56 1732

原创 mySQL插入数据自动生成时间

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-06-22 15:34:00 17534 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除