2 掌控自己就能掌控世界

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 18w+

如何去实现hive离线分析脚本

总共分为3步:1.编写hql脚本简单案例:编写hql脚本:vim tongji1.hql内容如下:select * from fluxdb.tongji1 where reporttime='${statis_date}';很简单就是一个表查询,没啥逻辑保存退出后,记得 赋予执行权限:chmod +x tongji1.hql2.编写bash脚本statis_time=`date +%Y-%m-%d`/home/01/software/hive-1.2/bin/hive -d stati

2020-07-30 14:10:58

认识RDD

一、什么是RDD?官方说法:RDD:弹性分布式数据集,是Spark最核心的数据结构。有分区机制,所以可以分布式进行处理。有容错机制,通过RDD之间的依赖关系来恢复数据。说白了RDD就是spark的一种特有集合,只不过这个集合它有分区属性,通过分区可以实现并行化计算,从而实现了spark高效处理数据的重要原因之一,此外RDD之间还存在着一种父子依赖关系,就向人类血缘关系一样,通过这种关系,可以实现数据的容错,比如说我们子RDD数据丢失了,可以通过计算父RDD重新生成子RDD数据。二、如何生成RDD?

2020-07-16 14:18:11

mysql 「=」符号和=号区别

今天在网上看资料无意中看到mysql的sql语句WHERE p.name <=> NULL,对于‘<=>’这个符号以前一直没遇到过,当时也是一脸懵逼,笔者查找了一些资料总结了下1.<=>和=号的相同点像常规的=运算符一样,两个值进行比较,结果是0(不等于)或1(相等);换句话说:’A’<=>’B’得0和’a’<=>’a‘得1。2.<=>和=号的不同点和=运算符不同的是,NULL的值是没有任何意义的。所以=号运算符不能把NULL作

2020-07-09 17:11:47

SparkSQL执行时的优化参数

近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了.具体现象内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光.设置超过40个executor,但未指定分区数,导致多数executor空闲.原因分析SparkSQL配置时Core与内存比例不恰当没有指定execu

2020-06-30 17:23:17

PG数据库学习教程

学习网址:https://www.yiibai.com/postgresql/postgresql-trigger.html

2020-06-28 18:42:25

PostgreSQL函数(存储过程)

PostgreSQL函数也称为PostgreSQL存储过程。 PostgreSQL函数或存储过程是存储在数据库服务器上并可以使用SQL界面调用的一组SQL和过程语句(声明,分配,循环,控制流程等)。 它有助于您执行通常在数据库中的单个函数中进行多次查询和往返操作的操作。您可以在许多语言(如SQL,PL/pgSQL,C,Python等)中创建PostgreSQL函数。语法:CREATE [OR REPLACE] FUNCTION function_name (arguments) RETURN.

2020-06-28 18:40:02

PostgreSQL创建视图

在PostgreSQL中,视图(VIEW)是一个伪表。 它不是物理表,而是作为普通表选择查询。视图也可以表示连接的表。 它可以包含表的所有行或来自一个或多个表的所选行。视图便于用户执行以下操作:它以自然和直观的方式构建数据,并使其易于查找。它限制对数据的访问,使得用户只能看到有限的数据而不是完整的数据。它归总来自各种表中的数据以生成报告。PostgreSQL创建视图可以使用CREATE VIEW语句来在PostgreSQL中创建视图。 您可以从单个表,多个表以及另一个视图创建它。语法CR

2020-06-28 18:24:03

sqoop使用案例

一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hive 相比,并没有什么高深的理论。sqoop:工具:本质就是迁移数据, 迁移的方式:就是把sqoop的迁移命令

2020-06-20 17:54:11

shell脚本监控磁盘和内存使用情况设置邮件报警机制

1.监控磁盘linux命令:df[root@hadoop02 ~]# df -ThFilesystem Type Size Used Avail Use% Mounted on/dev/sda2 ext4 18G 9.5G 7.0G 58% /tmpfs tmpfs 491M 72K 491M 1% /dev/shm/dev/sda1 ext4 283M 37M 232M 14% /boot注:T:显示文件

2020-06-06 10:01:55

shell脚本学习笔记

1.查看端口情况查看80端口:[root@hadoop01 software]# ss -an | grep :80LISTEN 0 128 *:80 2.shell脚本查看某个网址是否能够连接的通ping -c1 www.baidu.com && echo "www.baidu.com is up" || echo "www.baidu.com is down"[root@hadoop01 te

2020-06-02 11:35:03

mysql是如何实现分组排序取top案例

hql和oracle都支持分组排序方法:row_number() over(partition by XXX order by XXXX)rank() over(partition by XXX order by XXXX)dense_rank() over(partition by XXX order by XXXX)可以轻松实现分组排序去top值,但是mysql却不支持,那么mysql是如何实现分组排序的呢?先准备案例数据:首先我们先实现一下分组排序,我们要按省进行分组,在组内让实现GD

2020-06-02 11:32:08

shell 变量

shell变量?用一个特定的字符串去表示不固定的内容变量的类型:1.自定义变量定义变量:变量名=变量值 变量名必须以字母或下划线开头,区分大小写 如:ip1=192.168.43.166引用变量:$变量名 或 ${变量名}查看变量:echo $变量名 set(所有变量:包括自定义变量和环境变量)取消变量:unset 变量名作用范围:仅在当前shell中有效2.环境变量定义环境变量:方法一 export back_dir2=/home/backup方法二 export ip1 将自

2020-05-28 20:10:20

CentOS Linux系统Python3安装

本文的方法是在CentOS上新装了python3,如果本机安装了python2则保留,因为可能有程序依赖目前的python2环境,比如yum!!!!!一、安装python3.7安装依赖环境yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel如果有报:No m

2020-05-25 22:22:34

hive常用参数配置设置

hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。134217728Lhive.exec.mode.local.auto.tasks.max如果 hive.exec.mode.local.

2020-05-24 14:48:46

Oracle基本SQL语句

删除表:drop table 表名修改表结构:删除列:alter table 表名 drop column 列名增加列:alter table 表名 add(列名 数据类型, 列名 数据类型.....)修改列的数据类型:alter table 表名 modify(列名 数据类型)主键(Primary Key–PK):主键在表中能够唯一表示一条记录的字段,主键唯一并且不能为空。外键(Foreign Key–FK):外键主要用来维系多表之间的关联关系,一张表中的外键,必定是另一张表中

2020-05-19 16:00:06

Oracle数据库忘记密码或即使密码对的也登不上解决办法

首先忘记密码解决办法:1.打开cmd窗口命令框输入:echo %ORACLE_SID%2.如果你输入后没有显示说明你的电脑系统环境变量没配置配置下下面红框类容:或者直接在cmd窗口中设置也可以:3.执行sqlplus / as sysdbaOK!登录成功4.修改用户名和密码执行alter user you_username identified by you_password;到这边就可以使用新配置的用户名和密码登录了5.如果第三步遇到下面错误或者是cmd窗口能登陆了,但是

2020-05-19 12:28:56

hive误删内部表如何恢复

测试删除hive内部分区表找回:删除前数据查看hive (default)> select * from test3 where statis_date='2020-05-17';OKclo1 clo2 clo3 clo4 statis_datezhangsan jiangsu lisi anhui 2020-05-17sunce dongwu daqiao dongwu 2020-05-17zhouyu dongwu xiaoqiao dongwu 2020-05-17wangwu

2020-05-18 23:03:33

SQL 规范

一、 基础规范推荐使用InnoDB存储引擎支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高使用UTF8字符集万国码,无需转码,无乱码风险,节省空间数据表、数据字段必须加入中文注释高并发场景下禁止使用存储过程、视图、触发器、Event高并发大数据的互联网业务,架构设计思路是“解放数据库CPU,将计算转移到服务层”,并发量大的情况下,这些功能很可能将数据库拖死,业务逻辑放到服务层具备更好的扩展性,能够轻易实现“增机器就加性能”。数据库擅长存储与索引,CPU计

2020-05-15 13:11:50

explain 中ken_len作用

explain 中key_len的作用key_len越小 索引效果越好!key_len的长度是如何计算的?name的字段类型是varchar(20),字符编码是utf8,一个字符占用3个字节,那么key_len应该是 20*3=60。key_len的长度计算公式:varchr(10)变长字段且允许NULL = 10 * ( character set:utf8=3,gbk=2,latin1=1)+1(NULL)+2(变长字段)varchr(10)变长字段且不允许NULL = 10 *

2020-05-15 11:43:28

HBase如何批量删除指定数据

Hbase如何批量删除指定数据有时我们需要批量删除一些hbase中符合某些条件的数据,本文提供一种简单的shell命令的方式批量删除hbase里的数据。思路就是,建立hive与hbase的关联表,通过hive sql查询出符合条件的数据rowkey导出到本地文件,然后通过hbase shell批量删除。示例如下:1 创建hbase 表#创建表名为“test:user_blacklist”,列簇名为“user”的hbase表#hbase 表create 'test:user_blacklist',

2020-05-14 12:36:55

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。