自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 flink读取kafka数据写入clickhouse很慢

flink的业务逻辑代码导致的flink反压,进而导致kafka数据挤压

2022-06-15 19:35:27 2229 1

原创 flink源码解析

flink源码解析

2022-02-08 00:01:26 3511

原创 windows搭建HDFS客户端

1、去Apache官网下载hadoop解压包(官网)2、找到你需要的安装包下载3、下载后解压,配置环境变量3、下载尽量对应版本的 hadoop.dll 和 winutils.exe(下载地址)4、然后将下载后的 winutils.exe 放入解压后的 %HADOOP_HOME%\bin 目录下,将hadoop.dll 放入C:\Windows\System32 目录下5、新建Maven项目测试 <properties> <maven..

2021-02-14 16:11:12 1851

原创 单节点部署三台zookeeper和三台kafka

一台机器部署三台zookeeper:同理kafka也可以这样部署解压创建三个软连接,分别为 zookeeper,zookeeper1,zookeeper2[hadoop@hadoop001 app]$ lllrwxrwxrwx. 1 hadoop hadoop 25 Sep 1 03:37 zookeeper -> zookeeper-3.4.5-cdh5.7.0/drwxr...

2019-10-30 18:30:00 819

原创 spark如何读取hive里面的数据

首先,将hive-site.xml copy到spark/conf目录下spark shell和spark sql:指定mysql驱动包位置,--jars只会在executor端读取到,driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-...

2019-10-23 00:13:09 1016

原创 部署cdh时web页面激活夯住解决方案

web页面激活的时候夯住了,可以使用以下方案进行api激活第一步:查看版本[root@hadoop001 lib]# curl -u admin:admin -XGET http://hadoop001:7180/api/versionv19第二步:查看集群名称,取name字段的值[root@hadoop001 lib]# curl -u admin:admin -XGET http...

2019-10-19 22:20:22 373 1

原创 云主机tar包离线部署cdh

环境: 阿里云三台:centos7.2 hadoop001 hadoop002 hadoop003上传所需要的安装包到hadoop001 [root@hadoop001 ~]# ll total 3605076-rw-r--r-- 1 root root 2127506677 Oct 19 00:00 CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel-rw-r...

2019-10-19 22:18:40 482

转载 Maven打jar包的三种方式

不包含依赖jar包该方法打包的jar,不包含依赖的jar包,也没有指定入口类。<build> <plugins> <plugin> <!-- 指定项目编译时的java版本和编码方式 --> <groupId>org.apache.maven.plugins&lt...

2019-10-11 22:28:27 289

原创 hive自定义函数

hive自定义函数:UDF :User-Defined Function (用户自定义函数)一进一出UDAF : User-Defined Aggregation Function(用户自定义聚合函数) 多进一出UDTF : User-Defined Table-Generating Function(用户自定义表生成函数)一进多出这里重点说一下自定义UDF的使用:因为在使用hive清洗...

2019-10-11 21:47:18 121

原创 spark编译

编译需要依赖:1.scala 下载安装2.maven 下载安装,修改maven的仓库地址3.git yum安装如果使用maven编译的话最后不会生成tar.gz包,所以我们使用以下方式:编译命令:(--name参数是写上你的hadoop的版本,-Dhadoop.version写上你的hadoop版本,此方式默认的scala版本是2.11.8)./dev/make-distribu...

2019-10-11 20:33:09 150

原创 还原hadoop离线项目实战

项目架构:idea创建sb项目:至此,sb项目构建完毕,找到程序入口,测试成功!搭建nginx环境:1,安装c++依赖cd /etc/yum.repos.drm -rf *上传 CentOS6-Base-163.repo 文件---->/etc/yum.repos.dyum clean allyum makecacheyum -y install gcc pcre...

2019-10-05 16:23:23 136

原创 本地idea提交到yarn上运行错误解析

1.Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=yoohhwz, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------解决方案:在main方法首行加上...

2019-09-04 10:15:01 1087

原创 javaAPI操作HDFS进行文件流传输

##直接粘代码public class HDFSTest {public static final String HDFS_PATH="hdfs://hadoop001:9000";public static final String HADOOP_NAME="hadoop";Configuration configuration=null;FileSystem fs=null;@B...

2019-08-25 23:30:53 1654

原创 记录一次ssh远程别的机器找不到java环境的问题

环境:hadoop001hadoop002hadoop003三台机器,在hadoop001机器上远程启动hadoop002机器的zookeeper时候无法找到java环境,不能远程启动hadoop002机器上的zookeeper[hadoop@hadoop001 ~]$ ssh hadoop002 ${ZOOKEEPER_HOME}/bin/zkServer.sh startJMX e...

2019-08-25 08:29:36 795

原创 Shell中awk和sed简单用法

awk:[hadoop@hadoop001 script]$ cat awk.log张三,李四,王五北京,上海,深圳‘18’,20,161.取出第一列[hadoop@hadoop001 script]$ cat awk.log | awk -F ‘,’ ‘{print $1}’张三北京‘18’2.取出第一列,第三列[hadoop@hadoop001 script]$ cat ...

2019-08-24 17:11:43 270

原创 Shell相关

shell的两种执行方式:1.使用./ 脚本名执行chmod u+x shell脚本名–给当前用户一个可执行权限,如果别的用户需要执行权限,可以给其它用户可执行的权限,然后使用 ./shell脚本名 执行该脚本2.sh shell脚本名shell的debug模式:1.sh -x shelll脚本名2.在 脚本中 #!/bin/bash -x ,然后使用./shell脚本名执行shel...

2019-08-24 14:49:25 122

原创 阿里云主机Hadoop-HA集群搭建步骤(详细)

环境:阿里云三台:centos7.2hadoop-2.6.0-cdh5.15.1.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz先在三台机器上分别创建一个hadoop用户,并切换至hadoop用户[root@hadoop001 ~]# useradd hadoop[root@hadoop002 ~]# useradd hadoop...

2019-08-21 02:30:03 818

原创 Hive小Demo

需求分析:求各个区域下最受欢迎的产品的TOP 3假设我们mysql上存放了两表,一张city_info城市信息表,一张product_info产品信息表city_info:city_id 城市idcity_name 城市名字area 区域信息(华东、华北、华南、华中这些)product_info:product_id 产品idproduct_name 产品名称extend_inf...

2019-07-27 23:29:11 479

原创 Sqoop

Sqoop:一个hdfs(或者说hive,hbase)和关系型数据库(本文以mysql为例)交互的工具,可以将hdfs上面的数据导出到关系型数据库(如mysql),也可以将关系型数据库(mysql)导入到hdfs上,导入导出都是针对hdfs来说的。Sqoop搭建:1.下载与cdh对应版本的sqoop版本,然后解压,改名或者创建软连接[hadoop@hadoop001 software]$ ...

2019-07-24 00:03:31 141

原创 Hive分区分桶详解

一、分区概念:分区最主要的目的:实现快速查询为什么要创建分区:单个表数据量越来越大的时候,在Hive select查询中一般会扫描整个表内容(暴力扫描),会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区是将表中的字段拿来直接作为分区字段,而hive的分区则是分区字段不在...

2019-07-23 20:56:06 254

原创 hive的beeline连接方式

*##启动后台启动hs2服务,将输出日志输出到指定目录,然后使用beeline方式连接到hive上。*[hadoop@hadoop001 ~]$ nohup sh app/hive/bin/hiveserver2 >> ~/data/tmp/hs2.log &[1] 34483*##此处hs2的默认端口号为10000,可修改,hadoop001为主机名,hwzhdb为你...

2019-07-22 21:46:29 6395

原创 hive数据类型

hive数据类型分为基本数据类型和复杂数据类型(参考官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types)基本数据类型:常用的int,bigint,string,float,double,boolean,date,timestamp不做过多解释了复杂数据类型:1.array<dataTyle...

2019-07-21 23:20:24 115

原创 Hive解析json格式数据

本文将介绍两个使用hive解析json的小demo1.[hadoop@hadoop001 jsonData]$ more rating.json {"movie":"1193","rate":"5","time":"978300760","userid":"1"}{"movie":"661","rate":"3","time":"978302109","userid":"1"}{"movi...

2019-07-21 18:52:50 539

原创 Hive语法相关

一些常用的hive相关的语法,详细请查看官网:https://cwiki.apache.org/confluence/display/HiveDDLcreate创建数据库:create database [if not exists] 数据库名;创建表:create table [external] 表名(column1 type1,column2 type2,…)row fo...

2019-07-21 16:33:19 175

原创 Hive搭建步骤

1.下载与你hadoop对应的hive tar安装包,在这里我的hadoop是hadoop-2.6.0-cdh5.7.0的版本,所以需要去下载cdh同样为5.7.0的hive-1.1.0-cdh5.7.0.tar.gz包,然后上传至linux系统上的software目录下。[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ rz[had...

2019-07-18 22:52:37 363

原创 Hive相关概念

Hive:基于Hadoop之上的一个离线数据仓库,使用hdfs作为底层存储,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive主要分为以下几个部分:1. 用户接口用户接口主要有三个:CLI,Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个...

2019-07-15 23:29:28 195

原创 常见错误集(持续更新)

1.多次执行hdfs namenode -format命令然后启动start-dfs.sh 然后jps后发现datanode节点(或者其它节点,比如namenode)没有启动,然后去logs目录下查看datanode的日志文件hadoop-hadoop–datanode(或者其它比如namenode).log发现报如下错: 2019-07-03 12:39:54,640 WARNorg.ap...

2019-07-15 09:20:13 701

原创 MR的shuffle相关总结

mapreduce流程总结:1.通过InputFormat读取切片的数据,以<k1,V1>(K表示偏移量,V表示一行数据)的形式进入map()方法进行逻辑处理,处理之后的数据<K2,V2>(K2为标识符,V2为自定义的值)会通过partition分区进入到map shuffle阶段2.在进入到map shuffle阶段时会先进入环形内存缓冲区,默认100M,当缓冲区...

2019-07-14 23:46:38 288

原创 Yarn的概念以及资源分配

资源:一般来说资源分为CPU和内存 内存是一种“决定生死”的资源CPU是一种“影响快慢”的资源Yarn是做什么的? 是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,可为mr,spark,storm等提供资源分配与调度。yarn的模块划分:ResourceManager1)处理客户端请求2)启动/监控ApplicationMaster3)监控NodeManage...

2019-07-14 23:25:00 1199

原创 Hadoop1.0和2.0的主要区别

Hadoop 1.0指的是版本为Apache Hadoop0.20.x、1.x或者CDH3系列的Hadoop,组件主要由HDFS和MapReduce两个系统组成,HDFS是一个分布式文件存储系统,MapReduce是一个离线处理框架,分为三部分,运行时环境为JobTracker和TaskTracker,编程模型为Map映射和Reduce规约,数据处理引擎为MapTask和ReduceTask,H...

2019-07-13 18:28:04 3872

原创 HDFS相关基础概念

HDFS:hadoop实现的一个分布式文件存储系统,是主/从(Mater/Slave)体系结构,是基于流 数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了,是主从架构,分为namenode,datanode,secondaryNamenode。Namenode:是master1、管理 HDFS 的名命空间(a.文件名称b....

2019-07-08 22:37:02 160

原创 CDH集群伪分布式搭建步骤

1.安装虚拟机,配置ip(参考链接:点击这里)2.更改主机名,关闭防火墙,设置ip映射[root@hadoop001 ~]# vi /etc/sysconfig/network //更改主机名[root@hadoop001 ~]# service iptables stop //关闭防火墙[root@hadoop001 ~]# chkconfig iptables...

2019-07-03 00:41:00 1023

原创 Linux环境下部署Mysql数据库

一篇比较详细的linux环境MySQL的安装步骤1.mysql安装目录在/usr/local下,然后通过rz上传我们的mysql安装包2.使用ps -ef | grep mysqld 命令检查是否已经存在Mysql进程3.使用tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz 解压我们的MySQL安装包到当前/usr/loc...

2019-06-25 22:43:43 12523

原创 linux环境下jdk的安装

1.jdk安装目录必须建在 /usr/java下,不然在cdh集群搭建时候会有问题2.执行命令时候是从$PATH中从前往后执行的,所以需要将你的java环境变量放在$PATH的前边,这样系统才会采用你的jdk3.配置完环境变量后记得刷新 source /etc/profile 或者 . /etc/profile4.安装完成后你会发现你的jdk目录所属用户,所属组有问题需要我们修正开...

2019-06-22 13:08:54 214

原创 linux基础命令总结(持续更新)

命令可能不是那么的全,但是却是很实用的一些....查看当前系统主机名:hostname查看ip:ifconfig命令补全:按下tab键显示当前绝对路径:pwd查看hdfs数据块健康状态:hdfs fsck /查看进程:ps -ef | grep xxx eg:ps -ef | grep hadoop查看端口号(必须使用拥有sudo权限的用户或者直接root用户):...

2019-06-16 19:01:23 256

原创 Linux虚拟机Nat模式超详细搭建攻略

1.下载VMware Workstation软件,然后傻瓜式一直点击下一步即可完成安装,我这里用的是VMware102.打开VMware软件,点击文件--->新建虚拟机3. 选择自定义安装,点击下一步4.这一步不做任何操作,点击下一步5.选择稍后安装操作系统,点击下一步6.选择 linux 和CentOS64位,点击下一步7.给你的虚拟机起个名字,我这里就...

2019-06-15 12:56:27 956

原创 关于distinct去重后仍然有重复数据

记录一次工作中出现的小问题,在对一次用户地址信息原始数据拆分时候出现了dictinct地址字段后,结果仍然有重复数据出现,最终发现是因为中文全角半角的问题---------------------------------华丽的分割线----------------------------------不上图了,直接两个函数to_single_byte()转换成半角to_multi_byt...

2019-05-20 19:08:54 4054

原创 oracle解锁scott用户

首先,默认oracle对scott用户是枷锁状态的,所以需要我们去解锁使用1.打开cmd 输入sqlplus输入用户名:system输入口令:安装时候你设置的密码2.输入:alter user scott account unlock;一定要注意 ';'3.成功解锁,去plsql上进行登陆,密码为你安装时候设置的登陆成功!新手博客,请手下留情...

2019-05-06 17:09:21 14386 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除