自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 starrocks 用户权限管理

starrocks 用户权限学习

2022-10-19 16:41:46 1173 1

原创 broker load 数据导入

broker load 数据迁移

2022-06-11 14:42:03 411

原创 spring注解

spring注解

2021-08-25 11:03:24 187

原创 hive分区表增加字段

hive分区表增加列新增的列会以null展示插入数据后还是显示null如果放到第二天的分区,就能查出数据

2021-06-05 15:08:20 4189

原创 hdfs设置负载均衡

hadoop hdfs负载均衡一、hdfs dfsadmin -setBalancerBandwidth 67108864设置流量带宽为64mb二、start-balancer.sh -threshold 11可以是设置在1~100之间,1的hdfs负载均衡程度最高,花的时间也最多

2021-04-27 17:53:05 449

原创 hadoop为某DataNode增加磁盘空间

vmware新增一个磁盘https://www.jb51.net/article/177382.htm以及为现有磁盘扩容修改hdfs-site.xml文件,然后重启hadoop102节点

2021-04-12 18:11:57 373

原创 CDH 版本hadoop 配置自定义容量调度器

YARN的三种调度规则(scheduling rule)FIFOCapacitySchedulerFairSchedulerCapacityScheduler调度器是hadoop Apache 版默认的调度器FairScheduler是cdh默认调度器如果要把cdh版本资源调度器修改成容量调度器CapacityScheduler则配置HADOOP_HOME/etc/hadoop/capacity-scheduler.xml的内容如下新加一个hive的调度器<configuration

2021-03-31 16:36:14 595

原创 kettle之job——mysql两表之间的更新数据+插入数据

创建一个job任务job可以是多个transformation的组合+一些自己的sql或脚本

2021-01-18 17:24:22 147

原创 kettle之transformation——mysql两表之间的数据更新

使用kettle操作mysql前注意要配置mysql-connector-java-5.1.38.jar到data-integration\lib下,然后重启下kettle(Spoon.bat)现在要把一张表里的数据导到另一张表里mysql> create table stu1(id int,name varchar(20),age int);Query OK, 0 rows affected (0.01 sec)mysql> create table stu2(id int,name

2021-01-18 16:51:03 243

转载 count(1)、count(列名)、count(*)的区别

执行效果上 :count(*)包括了所有的列,相当于行数,在统计结果的时候, 不会忽略列值为NULLcount(1)包括了忽略所有列,用1代表代码行,在统计结果的时候, 不会忽略列值为NULLcount(列名)只包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不是只空字符串或者0,而是表示null)的计数, 即某个字段值为NULL时,不统计。执行效率上:列名为主键,count(列名)会比count(1)快列名不为主键,count(1)会比count(列名)快如果表多个列并且没有主键,

2021-01-13 22:21:57 89

原创 删除git已保存的用户名密码

进入cmdrundll32.exe keymgr.dll,KRShowKeyMgr重新pusg上传,成功

2020-12-31 23:12:23 964

原创 linux突然不能ping的解决方法

linux开机后xhsell连接不上,ping了一个百度发现一直连接不了原因在CentOS系统上,目前有NetworkManager和network两种网络管理工具。如果两种都配置会引起冲突,而且NetworkManager在网络断开的时候,会清理路由,如果一些自定义的路由,没有加入到NetworkManager的配置文件中,路由就被清理掉,网络连接后需要自定义添加上去。解决方法关闭NetworkManagersystemctl stop NetworkManagersystemctl disa

2020-12-29 15:25:24 1242

原创 shell中‘‘(单引号)、““(双引号)、``(反引号)的区别

案例vim test.sh chmod 777 test.sh #!/bin/bashdo_date=$1echo '$do_date' #单引号:直接打印单引号里的文本内容,不做解析echo "$do_date" #双引号:会解析文本变量echo "'$do_date'" #双引号:会解析文本变量echo '"$do_date"' #单引号:直接打印单引号里的文本内容,不做解析echo `date` #反引号:就像直接在bash界面输入执行命

2020-12-20 23:39:54 146

原创 大数据中的相关压缩

压缩比一般是越小越好,但是压得越小,解压时间越长。所以bzip2的压缩文件最小,但是解压慢,snappy的压缩速率最快,解压速度和lzo差不多,但是snappy不支持分片,lzo支持分片工作中lzo最流行,snappy用的也多Hadoop可以在输入端,中间数据和输出数据段进行压缩例如:添加配置core-site.xml并同步core-site.xml到其他机器<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet ..

2020-12-15 23:44:07 204

原创 mysql中的行转列、列转行

– 建表CREATE TABLE `student` ( `ID` int(10) NOT NULL AUTO_INCREMENT, `USER_NAME` varchar(20) DEFAULT NULL, `COURSE` varchar(20) DEFAULT NULL, `SCORE` float DEFAULT '0', PRIMARY KEY (`ID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;– 测试数据insert into

2020-12-15 16:32:32 217

原创 Hadoop配置LZO压缩(编译好的jar直接用)

1)hadoop本身并不支持lzo压缩,需要我们编译,过程复杂,这里直接提供编译好的jar包链接:https://pan.baidu.com/s/1L5S9geY7fSg1_ToNaTYsEg 提取码:vfaa 复制这段内容后打开百度网盘手机App,操作更方便哦2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop260/share/hadoop/common/3)把hadoop-lzo-0.4.20.jar发送到到hadoop02、hadoop03相同目录下4)为had

2020-12-12 23:10:18 821 1

原创 远程开启和关闭进程脚本

开启和关闭flume的脚本#! /bin/bashcase $1 in"start"){ for i in hadoop01 hadoop02 do echo "--------启动$i采集flume-------------" ssh $i "nohup /opt/soft/flume170/bin/flume-ng agent --conf-file /root/atguigu/flume/flume-

2020-12-11 21:50:06 321

原创 linux集群时间同步

1. 时间服务器配置(必须root用户)(1)每台机器检查ntp是否安装[root@hadoop102 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64没有就安装 yum install -y ntp(2)修改ntp配置文件[root@hadoop102 桌面]# vi /et

2020-12-10 23:28:25 130

原创 Kafka消费者

同一个partition不能被同一组内多个consumer同时读groupcoordinator

2020-12-10 19:19:31 191

原创 tail -f 和tail -F的区别

tail -f 与tail -F的区别这两条命令默认显示文件的最后 10 行tail -f等同于–follow=descriptor,根据文件描述符进行追踪,当文件改名或被删除,追踪停止tail -F根据文件名进行追踪,并保持重试,即该文件被删除或改名后,如果再次创建相同的文件名,会继续追踪...

2020-12-10 14:25:15 117

原创 YAML语法

YAML语法:1、基本语法k:(空格)v:表示一对键值对(空格必须有);以空格的缩进来控制层级关系;只要是左对齐的一列数据,都是同一个层级的2、值的写法字面量:普通的值(数字,字符串,布尔)k: v:字面直接来写;字符串默认不用加上单引号或者双引号;“”:双引号;不会转义字符串里面的特殊字符;特殊字符会作为本身想表示的意思name: “zhangsan \n lisi”:输出;zhangsan 换行 lisi‘’:单引号;会转义特殊字符,特殊字符最终只是一个普通的字符串数据name:

2020-12-09 21:30:13 164

原创 分布式数据库CAP原理

CAP原理C:Consistency(强一致性)A:Availability(可用性)P:Partition tolerance(分区容错性)CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。一致性和可用性之间取一个平衡。多余大多数web应用,其实并不需要强一致性。因此牺牲C换取P,这是目前分布式数据库产品的方向。经典CAP图

2020-12-08 22:41:26 109

原创 Kafka生产者

一、分区策略我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。(1)指明 partition 的情况下,直接将指明的值直接作为 partiton 值;(2)没有指明 partition 值但有 key 的情况下,将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值;(3)既没有 partition 值又没有 key 值的情况下,第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与 topic

2020-12-05 16:27:30 70

原创 Kafka工作流程及文件存储机制

Kafka 工作流程Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic的。topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端,且每条数据都有自己的 offset。消费者组中的每个消费者,都会实时记录自己消费到了哪个 offset,以便出错恢复时,从上次的位置继

2020-12-05 15:40:44 99

原创 Kafka基础架构

1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;2)Consumer :消息消费者,向 kafka broker 取消息的客户端;3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。4)Broker :一台 kafka 服务器就是一个 broker。一个集群由多个 b.

2020-12-04 23:43:19 60

原创 Kafka的shell操作

kafka启动脚本kafka-server-start.sh -daemon /opt/soft/kafka211/config/server.propertieskafka关闭脚本kafka-server-stop.sh stopkafka集群脚本编写启动脚本vi kkstart.shfor i in hadoop102 hadoop103 hadoop104doecho "========== $i =========="ssh $i '/opt/soft/kafka211/b

2020-12-04 23:32:26 110

原创 Flume架构原理

flume架构图AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。SourceSource 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence、generator、syslog、http、legacy。SinkSink

2020-11-28 20:50:07 134

原创 Linux虚拟机之间的拷贝脚本

xsync.sh 脚本在/usr/local/bin下创建xsync.sh脚本cd /usr/local/bintouch xsync.sh编写脚本vi xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`#echo fname=$fname#3 获取上级目录到绝对路径

2020-11-28 14:32:20 410

原创 Linux中的crontab定时任务

crontab语法进入crontab:crontab -ecrontab写法:分 小时 月份中的日期 月份 星期中的日期(星期天是1) (1)*:表示匹配该域的任意值。假如在Minutes域使用*, 即表示每分钟都会触发事件。  (2)?:只能用在DayofMonth和DayofWeek两个域。它也匹配域的任意值,但实际不会。因为DayofMonth和DayofWeek会相互影响。例如想在每月的20日触发调度,不管20日到底是星期几,则只能使用如下写法: 13 13 15 20 * ?,

2020-11-23 19:39:24 157

原创 数据库三大范式

原始表第一范式(1NF)要求数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值。第二范式(2NF)要求实体中每一行的所有非主属性都必须完全依赖于主键;即:非主属性必须完全依赖于主键第三范式(3NF)要求实体中的属性不能是其他实体中的非主属性。因为这样会出现冗余。即:属性不依赖于其他非主属性。...

2020-11-19 10:43:22 111

原创 Mysql中的事务

事务四大特性Mysql并发产生的问题事务隔离级别查询隔离级别select @@tx_isolation;设置隔离级别set global transaction isolation level 级别字符串;

2020-11-19 09:58:39 112

原创 HBase随机读写

HBase随机读写HDFS不太适合做大量的随机读应用,但HBASE却特别适合随机的读写个人理解:1、数据库一般都会有一层缓存,任何对数据的更改实际上是先更改内存中的数据。然后有异步的守护进程负责将脏页按照一定策略刷新到磁盘空间中去。这就可以大大降低软件对于磁盘随机操作的频度。2、HDFS读取会进行全文件查找耗时相当大,而数据库通常会建索引查找起来就快。...

2020-11-18 11:46:40 626

原创 Mysql中的流程控制语句

流程控制结构顺序、分支、循环一、分支结构1.if函数语法:if(条件,值1,值2)功能:实现双分支应用在begin end中或外面2.case结构语法:情况1:类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;…else 语句n;end情况2:casewhen 条件1 then 语句1;when 条件2 then 语句2;…else 语句n;end应用在begin end 中或外面*/3.if结构语

2020-11-14 14:17:58 194

原创 Mysql中的存储过程与函数

存储过程和函数共同含义一组经过预先编译的sql语句的集合共同好处:1、简化应用开发人员的很多工作2、减少数据在数据库和应用服务器之间的传输3、提高了数据处理的效率存储过程分类:1、无返回无参2、仅仅带in类型,无返回有参3、仅仅带out类型,有返回无参4、既带in又带out,有返回有参5、带inout,有返回有参注意:in、out、inout都可以在一个存储过程中带多个创建存储过程语法:delimiter $create procedure 存储过程名(in|out|ino

2020-11-14 11:37:16 108

原创 Mysql中的视图与临时表

视图定义MySQL从5.0.1版本开始提供视图功能。一种虚拟存在的表,行和列的数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的,只保存了sql逻辑,不保存查询结果应用场景:• 多个地方用到同样的查询结果• 该查询结果使用的sql语句较复杂优点• 重用sql语句• 简化复杂的sql操作,不必知道它的查询细节• 保护数据,提高安全性创建视图的语法:create [or replace] view view_nameAs select_statement[with|cas

2020-11-14 11:16:55 1547

原创 Mysql中的约束

什么是约束• 为了保证数据的一致性和完整性,SQL规范以约束的方式对表数据进行额外的条件限制。• 约束是表级的强制规定• 可以在创建表时规定约束(通过 CREATETABLE 语句),或者在表创建之后也可以(通过 ALTER TABLE 语句)约束类型Mysql的五种约束:•NOT NULL :非空约束,规定某个字段不能为空• UNIQUE : 唯一约束,规定某个字段在整个表中是唯一的•PRIMARY KEY :主键(非空且唯一)•FOREIGN KEY :外键•DEFAULT

2020-11-14 10:49:10 115

原创 shell命令操作mysql和hive

hivehive 所有参数usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the database to use -e <quo

2020-11-12 12:22:35 293

原创 sqoop中数据从Mysql到Hive(Hbase)

一、定义Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中也可以将HDFS的数据导进到关系型数据库中。sqoop将导入或导出命令翻译成mapreduce程序来实现。二、使用RDBMS到HDFS...

2020-11-11 23:19:53 190

原创 linux 修改时间

1、查看当前系统时间2、data -s ‘…’ 修改时间修改成功但是手动修改时间可能不够准确,下面是自动校准时间3、使用ntpdate命令安装ntpdate指令yum install ntpdate同步时间方法一ntp.api.bz 是一组NTP服务器集群,目前有6台服务器,位于上海电信ntpdate -u ntp.api.bz方法二同步到阿里服务器ntpdate ntp1.aliyun.com...

2020-11-11 19:53:20 72

原创 linux程序后台启动几种方法

一、区别:2>/dev/null意思就是把错误输出到“黑洞”>/dev/null 2>&1默认情况是1,也就是等同于1>/dev/null 2>&1。意思就是把标准输出重定向到“黑洞”,还把错误输出2重定向到标准输出1,也就是标准输出和错误输出都进了“黑洞”2>&1 >/dev/null意思就是把错误输出2重定向到标准出书1,也就是屏幕,标准输出进了“黑洞”,也就是标准输出进了黑洞,错误输出打印到屏幕...

2020-11-11 09:46:16 1650

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除