掌控自己就能掌控世界-CSDN博客

总共分为3步：1.编写hql脚本简单案例：编写hql脚本：vim tongji1.hql内容如下：select * from fluxdb.tongji1 where reporttime='${statis_date}';很简单就是一个表查询，没啥逻辑保存退出后，记得赋予执行权限：chmod +x tongji1.hql2.编写bash脚本statis_time=`date +%Y-%m-%d`/home/01/software/hive-1.2/bin/hive -d stati

2020-07-30 14:10:58 473

原创认识RDD

一、什么是RDD？官方说法：RDD：弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处理。有容错机制，通过RDD之间的依赖关系来恢复数据。说白了RDD就是spark的一种特有集合，只不过这个集合它有分区属性，通过分区可以实现并行化计算，从而实现了spark高效处理数据的重要原因之一，此外RDD之间还存在着一种父子依赖关系，就向人类血缘关系一样，通过这种关系，可以实现数据的容错，比如说我们子RDD数据丢失了，可以通过计算父RDD重新生成子RDD数据。二、如何生成RDD？

2020-07-16 14:18:11 354

原创 mysql 「=」符号和=号区别

今天在网上看资料无意中看到mysql的sql语句WHERE p.name <=> NULL，对于‘<=>’这个符号以前一直没遇到过，当时也是一脸懵逼，笔者查找了一些资料总结了下1.<=>和=号的相同点像常规的=运算符一样，两个值进行比较，结果是0（不等于）或1（相等）;换句话说：’A’<=>’B’得0和’a’<=>’a‘得1。2.<=>和=号的不同点和=运算符不同的是，NULL的值是没有任何意义的。所以=号运算符不能把NULL作

2020-07-09 17:11:47 254

转载 SparkSQL执行时的优化参数

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了.具体现象内存CPU比例失调一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光.设置超过40个executor,但未指定分区数,导致多数executor空闲.原因分析SparkSQL配置时Core与内存比例不恰当没有指定execu

2020-06-30 17:23:17 839

原创 PG数据库学习教程

学习网址：https://www.yiibai.com/postgresql/postgresql-trigger.html

2020-06-28 18:42:25 1153

转载 PostgreSQL函数(存储过程)

PostgreSQL函数也称为PostgreSQL存储过程。 PostgreSQL函数或存储过程是存储在数据库服务器上并可以使用SQL界面调用的一组SQL和过程语句(声明，分配，循环，控制流程等)。它有助于您执行通常在数据库中的单个函数中进行多次查询和往返操作的操作。您可以在许多语言(如SQL，PL/pgSQL，C，Python等)中创建PostgreSQL函数。语法：CREATE [OR REPLACE] FUNCTION function_name (arguments) RETURN.

2020-06-28 18:40:02 1100

转载 PostgreSQL创建视图

在PostgreSQL中，视图(VIEW)是一个伪表。它不是物理表，而是作为普通表选择查询。视图也可以表示连接的表。它可以包含表的所有行或来自一个或多个表的所选行。视图便于用户执行以下操作：它以自然和直观的方式构建数据，并使其易于查找。它限制对数据的访问，使得用户只能看到有限的数据而不是完整的数据。它归总来自各种表中的数据以生成报告。PostgreSQL创建视图可以使用CREATE VIEW语句来在PostgreSQL中创建视图。您可以从单个表，多个表以及另一个视图创建它。语法CR

2020-06-28 18:24:03 7042

转载 sqoop使用案例

一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论。sqoop：工具：本质就是迁移数据，迁移的方式：就是把sqoop的迁移命令

2020-06-20 17:54:11 316

原创 shell脚本监控磁盘和内存使用情况设置邮件报警机制

1.监控磁盘linux命令：df[root@hadoop02 ~]# df -ThFilesystem Type Size Used Avail Use% Mounted on/dev/sda2 ext4 18G 9.5G 7.0G 58% /tmpfs tmpfs 491M 72K 491M 1% /dev/shm/dev/sda1 ext4 283M 37M 232M 14% /boot注：T：显示文件

2020-06-06 10:01:55 532

原创 shell脚本学习笔记

1.查看端口情况查看80端口：[root@hadoop01 software]# ss -an | grep :80LISTEN 0 128 *:80 2.shell脚本查看某个网址是否能够连接的通ping -c1 www.baidu.com && echo "www.baidu.com is up" || echo "www.baidu.com is down"[root@hadoop01 te

2020-06-02 11:35:03 133 1

原创 mysql是如何实现分组排序取top案例

hql和oracle都支持分组排序方法：row_number() over(partition by XXX order by XXXX)rank() over(partition by XXX order by XXXX)dense_rank() over(partition by XXX order by XXXX)可以轻松实现分组排序去top值，但是mysql却不支持，那么mysql是如何实现分组排序的呢？先准备案例数据：首先我们先实现一下分组排序，我们要按省进行分组，在组内让实现GD

2020-06-02 11:32:08 984

原创 shell 变量

shell变量？用一个特定的字符串去表示不固定的内容变量的类型：1.自定义变量定义变量：变量名=变量值变量名必须以字母或下划线开头，区分大小写如：ip1=192.168.43.166引用变量：$变量名或 ${变量名}查看变量：echo $变量名 set（所有变量：包括自定义变量和环境变量）取消变量：unset 变量名作用范围：仅在当前shell中有效2.环境变量定义环境变量：方法一 export back_dir2=/home/backup方法二 export ip1 将自

2020-05-28 20:10:20 162

转载 CentOS Linux系统Python3安装

本文的方法是在CentOS上新装了python3，如果本机安装了python2则保留，因为可能有程序依赖目前的python2环境，比如yum！！！！！一、安装python3.7安装依赖环境yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel如果有报：No m

2020-05-25 22:22:34 230

转载 hive常用参数配置设置

hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行）truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。134217728Lhive.exec.mode.local.auto.tasks.max如果 hive.exec.mode.local.

2020-05-24 14:48:46 957

转载 Oracle基本SQL语句

删除表：drop table 表名修改表结构：删除列：alter table 表名 drop column 列名增加列：alter table 表名 add(列名数据类型, 列名数据类型.....)修改列的数据类型：alter table 表名 modify(列名数据类型)主键（Primary Key–PK）：主键在表中能够唯一表示一条记录的字段，主键唯一并且不能为空。外键（Foreign Key–FK）：外键主要用来维系多表之间的关联关系，一张表中的外键，必定是另一张表中

2020-05-19 16:00:06 264

原创 Oracle数据库忘记密码或即使密码对的也登不上解决办法

首先忘记密码解决办法：1.打开cmd窗口命令框输入：echo %ORACLE_SID%2.如果你输入后没有显示说明你的电脑系统环境变量没配置配置下下面红框类容：或者直接在cmd窗口中设置也可以：3.执行sqlplus / as sysdbaOK！登录成功4.修改用户名和密码执行alter user you_username identified by you_password;到这边就可以使用新配置的用户名和密码登录了5.如果第三步遇到下面错误或者是cmd窗口能登陆了，但是

2020-05-19 12:28:56 1814

原创 hive误删内部表如何恢复

测试删除hive内部分区表找回：删除前数据查看hive (default)> select * from test3 where statis_date='2020-05-17';OKclo1 clo2 clo3 clo4 statis_datezhangsan jiangsu lisi anhui 2020-05-17sunce dongwu daqiao dongwu 2020-05-17zhouyu dongwu xiaoqiao dongwu 2020-05-17wangwu

2020-05-18 23:03:33 2504

转载 SQL 规范

一、基础规范推荐使用InnoDB存储引擎支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高使用UTF8字符集万国码，无需转码，无乱码风险，节省空间数据表、数据字段必须加入中文注释高并发场景下禁止使用存储过程、视图、触发器、Event高并发大数据的互联网业务，架构设计思路是“解放数据库CPU，将计算转移到服务层”，并发量大的情况下，这些功能很可能将数据库拖死，业务逻辑放到服务层具备更好的扩展性，能够轻易实现“增机器就加性能”。数据库擅长存储与索引，CPU计

2020-05-15 13:11:50 408

转载 explain 中ken_len作用

explain 中key_len的作用key_len越小索引效果越好！key_len的长度是如何计算的？name的字段类型是varchar(20)，字符编码是utf8，一个字符占用3个字节，那么key_len应该是 20*3=60。key_len的长度计算公式：varchr(10)变长字段且允许NULL = 10 * ( character set：utf8=3,gbk=2,latin1=1)+1(NULL)+2(变长字段)varchr(10)变长字段且不允许NULL = 10 *

2020-05-15 11:43:28 771

转载 HBase如何批量删除指定数据

Hbase如何批量删除指定数据有时我们需要批量删除一些hbase中符合某些条件的数据，本文提供一种简单的shell命令的方式批量删除hbase里的数据。思路就是，建立hive与hbase的关联表，通过hive sql查询出符合条件的数据rowkey导出到本地文件，然后通过hbase shell批量删除。示例如下:1 创建hbase 表#创建表名为“test:user_blacklist”,列簇名为“user”的hbase表#hbase 表create 'test:user_blacklist',

2020-05-14 12:36:55 1722

转载 HBase 1.X API

package com.enda;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellScanner;import org.apache.hadoop.hbase.H

2020-05-14 12:24:41 148

转载 HBase Shell手动移动Region

在生产环境中很有可能有那么几个Region比较大，但是都运行在同一个Regionserver中。这个时候就需要手动将region移动到负载低的Regionserver中。步骤：1、找到要移动的region，记录红框的id值，这个是唯一的region ID2.查看RegionServer列表，并记录ip、端口、startcode#明显读请求不均衡3.我们需要将部分region移动到dn3这台RegionServer上。例如： mine:t_match_odds,"""""""",145699

2020-05-13 11:26:34 521 1

原创 Maven项目创建

1.配置eclipse的maven插件点击菜单栏Window–>Preferences–>左边菜单栏选择maven主要配置配置2处：第一处添加自己下载的maven安装包解压后的地址注意配置好了后需要像图1一样打钩第二处是指定maven的 sittings.xml文件配置的地址是在上个配置的地址的conf目录下的sittings.xml2.创建maven右击项目栏空白处选择new Project创建完毕maven的项目结构如果你创建后发现报错：Descrip

2020-05-08 19:56:22 128

原创 Linux查看mysql用户和组

1.查看是否存在MySQL组：[root@hadoop03 ~]# grep mysql /etc/groupmysql:x:501:注：mysql是组名，x是密码段，表示没有设置密码，501表示的是GID(组id)2.不存在创建MySQL组：#创建mysql组[root@hadoop03 ~]# groupadd -g 27 mysql02#查看mysql组[root@hado...

2020-05-04 17:21:31 5820

原创 Linux系统Nginx安装

安装步奏：1.安装gcc执行指令：yum install gcc-c++[root@hadoop03 gcc_package]# yum install gcc-c++Loaded plugins: fastestmirror, refresh-packagekit, securitySetting up Install ProcessLoading mirror speeds fro...

2020-04-30 20:39:42 270

原创 Linux系统下tomcat安装

1.下载Linux系统tomcat安装包官网下载地址：https://tomcat.apache.org我这里下载tomcat8版本的2.上传解压大概9.83MB下载下来后rz命令上传至服务器解压[root@hadoop02 software]# tar -xvf apache-tomcat-8.5.54.tar.gz 3.启动进入tomcat解压后的文件目录切换到bin目录执行...

2020-04-30 10:38:15 112

转载 SpringRDD的5大特性

1.A list of partitionsRDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。总结RDD具有分区性2.A function for computing each split一个函数计算每一个分片，RDD的每个partition上面都...

2020-04-29 09:53:09 233

原创 Hadoop高可用集群搭建遇到的问题

1.格式化zookeeper异常[root@hadoop03 bin]# hdfs zkfc -formatZKException in thread "main" org.apache.hadoop.HadoopIllegalArgumentException: Could not get the namenode ID of this node. You may run zkfc on t...

2020-04-28 09:26:29 2463 3

转载 Spark join和cogroup算子

join下面的代码包括RDD和DataFrame的join操作, 注释中有详细描述import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, Spar...

2020-04-27 22:20:03 231

转载 Spark的shuffle算子

一、去重def distinct()def distinct(numPartitions: Int)二、聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(...

2020-04-27 22:17:40 130

转载 Spark性能优化--数据倾斜调优与shuffle调优

一、数据倾斜发生的原理1. 原理：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregat...

2020-04-27 22:09:51 166

转载如何避免HBase因写入过快引起的各种问题

首先我们简单回顾下整个写入流程client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==>write WAL ==> write memstore ==> flush to filesystem整个写入流程从客户端调用API开始，数据会通过protobuf编码成一个请求，通...

2020-04-27 21:17:59 177

转载 RPM包命令使用方法

rpm命令是RPM软件包的管理工具。rpm原本是Red Hat Linux发行版专门用来管理Linux各项套件的程序，由于它遵循GPL规则且功能强大方便，因而广受欢迎。逐渐受到其他发行版的采用。RPM套件管理方式的出现，让Linux易于安装，升级，间接提升了Linux的适用度。RPM包与源码包的区别1、软件包分类源码包：C源代码包rpm包：编译之后的二进制包2、源码包优点：开源；可以自...

2020-04-25 09:41:37 284

转载 Zookeeper集群启动后查询状态提示Error contacting service. It is probably not running.

看到这个问题我就去找zookeeper的日志文件zookeeper.out查看报错原因：2020-03-30 21:03:06,726 [myid:3] - WARN [QuorumPeer[myid=3]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@400] - Cannot open channel to 1 at election address /49...

2020-04-24 18:40:05 258

原创大数据各集群管理地址

1.zookeeper：2.hadoop集群查查看namenode的信息：http://192.168.234.22:50070，查看namenode的信息和状态3.查看yarn资源的管理地址：http://192.168.234.21:8088（节点01的8088端口）4.HBase管理页面：hbase1.0之前版本是http://xxxxx:60010；1.0版本之后是16010端口，必...

2020-04-23 11:24:39 601

原创关于HBase集群启动起来Hmaster节点几秒后又悄悄的挂点问题处理

今天启动HBase集群后查看集群节点没问题一切OK，Hmaster和HRegionServer都起来了，可是回头没几秒再次jps查询是却发现Hmaster就这么的没了看病先看症状：我立马去hbase日志查看了下（hbase日志在hbase安装目录下的log文件夹下）注意上面的报错关键字： Operation category READ is not supported in state s...

2020-04-23 11:14:05 1180

原创 Mysql数据库表数据备份

方式一、Linux下mysqldump导入导出命令备份数据库数据1.导出数据和表结构–本地导数据mysql -u[用户名] -p 数据库名 > 导出数据存放路径/导出文件名.sql (回车后输入密码即可,也可以直接将密码输在p后面，只是不安全)–远程导数据mysql -h[ip] -P[端口号] -u[用户名] -p 数据库名 > 导出数据存放路径/...

2020-04-22 20:04:02 758

原创 Linux 系统centOS6.7安装mysqlhotcopy遇到的各种问题记录

关于mysqlhotcopy安装在网上找了很多参考，总结安装mysqlhotcopy前需先安装perl-DBI 和 perl-DBD-MySQL，否则在运行mysqlhotcopy时会报错[root@hadoop02 temp]# mysqlhotcopy fluxdb /home/01/temp/cccCan't locate DBI.pm in @INC (@INC contains: /...

2020-04-22 11:57:04 400

转载 mysql一主多从配置详情

https://www.cnblogs.com/zgx/archive/2011/09/13/2174823.html1、准备好3台虚机，一台master，两台slave且都安装好mysql2、主服务器上登录mysql，创建要同步的库及表mysql> mysql -uroot -p111111; mysql> CREATE DATABASE NAME; mysql> use...

2020-04-20 20:45:27 245

空空如也

大表 left join 小表时产生数据倾斜怎么处理？