yoohhwz-CSDN博客

原创 flink读取kafka数据写入clickhouse很慢

flink的业务逻辑代码导致的flink反压，进而导致kafka数据挤压

2022-06-15 19:35:27 2229 1

1、去Apache官网下载hadoop解压包(官网)2、找到你需要的安装包下载3、下载后解压，配置环境变量3、下载尽量对应版本的 hadoop.dll 和 winutils.exe（下载地址）4、然后将下载后的 winutils.exe 放入解压后的 %HADOOP_HOME%\bin 目录下，将hadoop.dll 放入C:\Windows\System32 目录下5、新建Maven项目测试 <properties> <maven..

2021-02-14 16:11:12 1851

原创单节点部署三台zookeeper和三台kafka

一台机器部署三台zookeeper：同理kafka也可以这样部署解压创建三个软连接，分别为 zookeeper，zookeeper1，zookeeper2[hadoop@hadoop001 app]$ lllrwxrwxrwx. 1 hadoop hadoop 25 Sep 1 03:37 zookeeper -> zookeeper-3.4.5-cdh5.7.0/drwxr...

2019-10-30 18:30:00 819

原创 spark如何读取hive里面的数据

首先，将hive-site.xml copy到spark/conf目录下spark shell和spark sql：指定mysql驱动包位置，--jars只会在executor端读取到，driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-...

2019-10-23 00:13:09 1016

原创部署cdh时web页面激活夯住解决方案

web页面激活的时候夯住了，可以使用以下方案进行api激活第一步：查看版本[root@hadoop001 lib]# curl -u admin:admin -XGET http://hadoop001:7180/api/versionv19第二步：查看集群名称，取name字段的值[root@hadoop001 lib]# curl -u admin:admin -XGET http...

2019-10-19 22:20:22 373 1

原创云主机tar包离线部署cdh

环境：阿里云三台：centos7.2 hadoop001 hadoop002 hadoop003上传所需要的安装包到hadoop001 [root@hadoop001 ~]# ll total 3605076-rw-r--r-- 1 root root 2127506677 Oct 19 00:00 CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel-rw-r...

2019-10-19 22:18:40 482

转载 Maven打jar包的三种方式

不包含依赖jar包该方法打包的jar，不包含依赖的jar包，也没有指定入口类。<build> <plugins> <plugin>  <groupId>org.apache.maven.plugins&lt...

2019-10-11 22:28:27 289

原创 hive自定义函数

hive自定义函数：UDF :User-Defined Function （用户自定义函数）一进一出UDAF : User-Defined Aggregation Function（用户自定义聚合函数）多进一出UDTF : User-Defined Table-Generating Function（用户自定义表生成函数）一进多出这里重点说一下自定义UDF的使用：因为在使用hive清洗...

2019-10-11 21:47:18 121

原创 spark编译

编译需要依赖：1.scala 下载安装2.maven 下载安装，修改maven的仓库地址3.git yum安装如果使用maven编译的话最后不会生成tar.gz包，所以我们使用以下方式:编译命令：（--name参数是写上你的hadoop的版本，-Dhadoop.version写上你的hadoop版本,此方式默认的scala版本是2.11.8）./dev/make-distribu...

2019-10-11 20:33:09 150

原创还原hadoop离线项目实战

项目架构：idea创建sb项目：至此，sb项目构建完毕，找到程序入口，测试成功！搭建nginx环境：1，安装c++依赖cd /etc/yum.repos.drm -rf *上传 CentOS6-Base-163.repo 文件---->/etc/yum.repos.dyum clean allyum makecacheyum -y install gcc pcre...

2019-10-05 16:23:23 136

原创本地idea提交到yarn上运行错误解析

1.Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=yoohhwz, access=EXECUTE, inode="/tmp/hadoop-yarn":hadoop:supergroup:drwx------解决方案：在main方法首行加上...

2019-09-04 10:15:01 1087

原创 javaAPI操作HDFS进行文件流传输

##直接粘代码public class HDFSTest {public static final String HDFS_PATH="hdfs://hadoop001:9000";public static final String HADOOP_NAME="hadoop";Configuration configuration=null;FileSystem fs=null;@B...

2019-08-25 23:30:53 1654

原创记录一次ssh远程别的机器找不到java环境的问题

环境：hadoop001hadoop002hadoop003三台机器，在hadoop001机器上远程启动hadoop002机器的zookeeper时候无法找到java环境，不能远程启动hadoop002机器上的zookeeper[hadoop@hadoop001 ~]$ ssh hadoop002 ${ZOOKEEPER_HOME}/bin/zkServer.sh startJMX e...

2019-08-25 08:29:36 795

原创 Shell中awk和sed简单用法

awk:[hadoop@hadoop001 script]$ cat awk.log张三,李四,王五北京,上海,深圳‘18’,20,161.取出第一列[hadoop@hadoop001 script]$ cat awk.log | awk -F ‘,’ ‘{print $1}’张三北京‘18’2.取出第一列，第三列[hadoop@hadoop001 script]$ cat ...

2019-08-24 17:11:43 270

原创 Shell相关

shell的两种执行方式：1.使用./ 脚本名执行chmod u+x shell脚本名–给当前用户一个可执行权限，如果别的用户需要执行权限，可以给其它用户可执行的权限，然后使用 ./shell脚本名执行该脚本2.sh shell脚本名shell的debug模式：1.sh -x shelll脚本名2.在脚本中 #!/bin/bash -x ，然后使用./shell脚本名执行shel...

2019-08-24 14:49:25 122

原创阿里云主机Hadoop-HA集群搭建步骤(详细)

环境：阿里云三台：centos7.2hadoop-2.6.0-cdh5.15.1.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz先在三台机器上分别创建一个hadoop用户，并切换至hadoop用户[root@hadoop001 ~]# useradd hadoop[root@hadoop002 ~]# useradd hadoop...

2019-08-21 02:30:03 818

原创 Hive小Demo

需求分析：求各个区域下最受欢迎的产品的TOP 3假设我们mysql上存放了两表，一张city_info城市信息表，一张product_info产品信息表city_info:city_id 城市idcity_name 城市名字area 区域信息(华东、华北、华南、华中这些)product_info：product_id 产品idproduct_name 产品名称extend_inf...

2019-07-27 23:29:11 479

原创 Sqoop

Sqoop：一个hdfs(或者说hive，hbase)和关系型数据库(本文以mysql为例)交互的工具，可以将hdfs上面的数据导出到关系型数据库(如mysql)，也可以将关系型数据库(mysql)导入到hdfs上，导入导出都是针对hdfs来说的。Sqoop搭建：1.下载与cdh对应版本的sqoop版本，然后解压，改名或者创建软连接[hadoop@hadoop001 software]$ ...

2019-07-24 00:03:31 141

原创 Hive分区分桶详解

一、分区概念：分区最主要的目的:实现快速查询为什么要创建分区：单个表数据量越来越大的时候，在Hive select查询中一般会扫描整个表内容(暴力扫描)，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异：mysql分区是将表中的字段拿来直接作为分区字段，而hive的分区则是分区字段不在...

2019-07-23 20:56:06 254

原创 hive的beeline连接方式

*##启动后台启动hs2服务，将输出日志输出到指定目录，然后使用beeline方式连接到hive上。*[hadoop@hadoop001 ~]$ nohup sh app/hive/bin/hiveserver2 >> ~/data/tmp/hs2.log &[1] 34483*##此处hs2的默认端口号为10000,可修改，hadoop001为主机名，hwzhdb为你...

2019-07-22 21:46:29 6395

原创 hive数据类型

hive数据类型分为基本数据类型和复杂数据类型(参考官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types)基本数据类型：常用的int，bigint，string，float，double，boolean，date，timestamp不做过多解释了复杂数据类型：1.array<dataTyle...

2019-07-21 23:20:24 115

原创 Hive解析json格式数据

本文将介绍两个使用hive解析json的小demo1.[hadoop@hadoop001 jsonData]$ more rating.json {"movie":"1193","rate":"5","time":"978300760","userid":"1"}{"movie":"661","rate":"3","time":"978302109","userid":"1"}{"movi...

2019-07-21 18:52:50 539

原创 Hive语法相关

一些常用的hive相关的语法，详细请查看官网：https://cwiki.apache.org/confluence/display/HiveDDLcreate创建数据库：create database [if not exists] 数据库名;创建表：create table [external] 表名(column1 type1,column2 type2,…)row fo...

2019-07-21 16:33:19 175

原创 Hive搭建步骤

1.下载与你hadoop对应的hive tar安装包，在这里我的hadoop是hadoop-2.6.0-cdh5.7.0的版本，所以需要去下载cdh同样为5.7.0的hive-1.1.0-cdh5.7.0.tar.gz包，然后上传至linux系统上的software目录下。[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ rz[had...

2019-07-18 22:52:37 363

原创 Hive相关概念

Hive：基于Hadoop之上的一个离线数据仓库，使用hdfs作为底层存储，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive主要分为以下几个部分：1. 用户接口用户接口主要有三个：CLI，Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI，Cli 启动的时候，会同时启动一个...

2019-07-15 23:29:28 195

原创常见错误集(持续更新)

1.多次执行hdfs namenode -format命令然后启动start-dfs.sh 然后jps后发现datanode节点(或者其它节点,比如namenode)没有启动，然后去logs目录下查看datanode的日志文件hadoop-hadoop–datanode(或者其它比如namenode).log发现报如下错： 2019-07-03 12:39:54,640 WARNorg.ap...

2019-07-15 09:20:13 701

原创 MR的shuffle相关总结

mapreduce流程总结：1.通过InputFormat读取切片的数据，以<k1,V1>(K表示偏移量,V表示一行数据)的形式进入map()方法进行逻辑处理，处理之后的数据<K2,V2>(K2为标识符,V2为自定义的值)会通过partition分区进入到map shuffle阶段2.在进入到map shuffle阶段时会先进入环形内存缓冲区,默认100M，当缓冲区...

2019-07-14 23:46:38 288

原创 Yarn的概念以及资源分配

资源：一般来说资源分为CPU和内存内存是一种“决定生死”的资源CPU是一种“影响快慢”的资源Yarn是做什么的? 是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度,可为mr，spark，storm等提供资源分配与调度。yarn的模块划分：ResourceManager1）处理客户端请求2）启动/监控ApplicationMaster3）监控NodeManage...

2019-07-14 23:25:00 1199

原创 Hadoop1.0和2.0的主要区别

Hadoop 1.0指的是版本为Apache Hadoop0.20.x、1.x或者CDH3系列的Hadoop，组件主要由HDFS和MapReduce两个系统组成，HDFS是一个分布式文件存储系统，MapReduce是一个离线处理框架，分为三部分，运行时环境为JobTracker和TaskTracker，编程模型为Map映射和Reduce规约，数据处理引擎为MapTask和ReduceTask，H...

2019-07-13 18:28:04 3872

原创 HDFS相关基础概念

HDFS：hadoop实现的一个分布式文件存储系统，是主/从（Mater/Slave）体系结构，是基于流数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了，是主从架构，分为namenode，datanode，secondaryNamenode。Namenode：是master1、管理 HDFS 的名命空间(a.文件名称b....

2019-07-08 22:37:02 160

原创 CDH集群伪分布式搭建步骤

1.安装虚拟机，配置ip（参考链接：点击这里）2.更改主机名,关闭防火墙，设置ip映射[root@hadoop001 ~]# vi /etc/sysconfig/network //更改主机名[root@hadoop001 ~]# service iptables stop //关闭防火墙[root@hadoop001 ~]# chkconfig iptables...

2019-07-03 00:41:00 1023

原创 Linux环境下部署Mysql数据库

一篇比较详细的linux环境MySQL的安装步骤1.mysql安装目录在/usr/local下，然后通过rz上传我们的mysql安装包2.使用ps -ef | grep mysqld 命令检查是否已经存在Mysql进程3.使用tar -zxvf mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz 解压我们的MySQL安装包到当前/usr/loc...

2019-06-25 22:43:43 12523

原创 linux环境下jdk的安装

1.jdk安装目录必须建在 /usr/java下，不然在cdh集群搭建时候会有问题2.执行命令时候是从$PATH中从前往后执行的，所以需要将你的java环境变量放在$PATH的前边，这样系统才会采用你的jdk3.配置完环境变量后记得刷新 source /etc/profile 或者 . /etc/profile4.安装完成后你会发现你的jdk目录所属用户，所属组有问题需要我们修正开...

2019-06-22 13:08:54 214

原创 linux基础命令总结(持续更新)

命令可能不是那么的全，但是却是很实用的一些....查看当前系统主机名:hostname查看ip：ifconfig命令补全：按下tab键显示当前绝对路径：pwd查看hdfs数据块健康状态：hdfs fsck /查看进程：ps -ef | grep xxx eg：ps -ef | grep hadoop查看端口号(必须使用拥有sudo权限的用户或者直接root用户)：...

2019-06-16 19:01:23 256

原创 Linux虚拟机Nat模式超详细搭建攻略

1.下载VMware Workstation软件，然后傻瓜式一直点击下一步即可完成安装,我这里用的是VMware102.打开VMware软件，点击文件--->新建虚拟机3. 选择自定义安装，点击下一步4.这一步不做任何操作，点击下一步5.选择稍后安装操作系统,点击下一步6.选择 linux 和CentOS64位，点击下一步7.给你的虚拟机起个名字，我这里就...

2019-06-15 12:56:27 956

原创关于distinct去重后仍然有重复数据

记录一次工作中出现的小问题，在对一次用户地址信息原始数据拆分时候出现了dictinct地址字段后，结果仍然有重复数据出现，最终发现是因为中文全角半角的问题---------------------------------华丽的分割线----------------------------------不上图了，直接两个函数to_single_byte()转换成半角to_multi_byt...

2019-05-20 19:08:54 4054

原创 oracle解锁scott用户

首先，默认oracle对scott用户是枷锁状态的，所以需要我们去解锁使用1.打开cmd 输入sqlplus输入用户名:system输入口令:安装时候你设置的密码2.输入:alter user scott account unlock;一定要注意 ';'3.成功解锁，去plsql上进行登陆，密码为你安装时候设置的登陆成功！新手博客，请手下留情...

2019-05-06 17:09:21 14386 2

空空如也

空空如也