数据孤岛-CSDN博客

原创 starrocks 用户权限管理

starrocks 用户权限学习

2022-10-19 16:41:46 1173 1

原创 hive分区表增加字段

hive分区表增加列新增的列会以null展示插入数据后还是显示null如果放到第二天的分区，就能查出数据

2021-06-05 15:08:20 4189

原创 hdfs设置负载均衡

hadoop hdfs负载均衡一、hdfs dfsadmin -setBalancerBandwidth 67108864设置流量带宽为64mb二、start-balancer.sh -threshold 11可以是设置在1~100之间，1的hdfs负载均衡程度最高,花的时间也最多

2021-04-27 17:53:05 449

原创 hadoop为某DataNode增加磁盘空间

vmware新增一个磁盘https://www.jb51.net/article/177382.htm以及为现有磁盘扩容修改hdfs-site.xml文件，然后重启hadoop102节点

2021-04-12 18:11:57 373

YARN的三种调度规则(scheduling rule)FIFOCapacitySchedulerFairSchedulerCapacityScheduler调度器是hadoop Apache 版默认的调度器FairScheduler是cdh默认调度器如果要把cdh版本资源调度器修改成容量调度器CapacityScheduler则配置HADOOP_HOME/etc/hadoop/capacity-scheduler.xml的内容如下新加一个hive的调度器<configuration

2021-03-31 16:36:14 595

原创 kettle之job——mysql两表之间的更新数据+插入数据

创建一个job任务job可以是多个transformation的组合+一些自己的sql或脚本

2021-01-18 17:24:22 147

原创 kettle之transformation——mysql两表之间的数据更新

使用kettle操作mysql前注意要配置mysql-connector-java-5.1.38.jar到data-integration\lib下，然后重启下kettle(Spoon.bat)现在要把一张表里的数据导到另一张表里mysql> create table stu1(id int,name varchar(20),age int);Query OK, 0 rows affected (0.01 sec)mysql> create table stu2(id int,name

2021-01-18 16:51:03 243

转载 count(1)、count(列名)、count(*)的区别

执行效果上：count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULLcount(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULLcount(列名)只包括列名那一列，在统计结果的时候，会忽略列值为空（这里的空不是只空字符串或者0，而是表示null）的计数，即某个字段值为NULL时，不统计。执行效率上：列名为主键，count(列名)会比count(1)快列名不为主键，count(1)会比count(列名)快如果表多个列并且没有主键，

2021-01-13 22:21:57 89

原创删除git已保存的用户名密码

进入cmdrundll32.exe keymgr.dll,KRShowKeyMgr重新pusg上传,成功

2020-12-31 23:12:23 964

原创 linux突然不能ping的解决方法

linux开机后xhsell连接不上，ping了一个百度发现一直连接不了原因在CentOS系统上，目前有NetworkManager和network两种网络管理工具。如果两种都配置会引起冲突，而且NetworkManager在网络断开的时候，会清理路由，如果一些自定义的路由，没有加入到NetworkManager的配置文件中，路由就被清理掉，网络连接后需要自定义添加上去。解决方法关闭NetworkManagersystemctl stop NetworkManagersystemctl disa

2020-12-29 15:25:24 1242

原创 shell中‘‘(单引号)、““（双引号）、``（反引号）的区别

案例vim test.sh chmod 777 test.sh #!/bin/bashdo_date=$1echo '$do_date' #单引号：直接打印单引号里的文本内容，不做解析echo "$do_date" #双引号：会解析文本变量echo "'$do_date'" #双引号：会解析文本变量echo '"$do_date"' #单引号：直接打印单引号里的文本内容，不做解析echo `date` #反引号：就像直接在bash界面输入执行命

2020-12-20 23:39:54 146

原创大数据中的相关压缩

压缩比一般是越小越好，但是压得越小,解压时间越长。所以bzip2的压缩文件最小，但是解压慢，snappy的压缩速率最快，解压速度和lzo差不多，但是snappy不支持分片，lzo支持分片工作中lzo最流行，snappy用的也多Hadoop可以在输入端，中间数据和输出数据段进行压缩例如：添加配置core-site.xml并同步core-site.xml到其他机器<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet ..

2020-12-15 23:44:07 204

原创 mysql中的行转列、列转行

– 建表CREATE TABLE `student` ( `ID` int(10) NOT NULL AUTO_INCREMENT, `USER_NAME` varchar(20) DEFAULT NULL, `COURSE` varchar(20) DEFAULT NULL, `SCORE` float DEFAULT '0', PRIMARY KEY (`ID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;– 测试数据insert into

2020-12-15 16:32:32 217

原创 Hadoop配置LZO压缩（编译好的jar直接用）

1）hadoop本身并不支持lzo压缩，需要我们编译，过程复杂，这里直接提供编译好的jar包链接：https://pan.baidu.com/s/1L5S9geY7fSg1_ToNaTYsEg 提取码：vfaa 复制这段内容后打开百度网盘手机App，操作更方便哦2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop260/share/hadoop/common/3）把hadoop-lzo-0.4.20.jar发送到到hadoop02、hadoop03相同目录下4）为had

2020-12-12 23:10:18 821 1

原创远程开启和关闭进程脚本

开启和关闭flume的脚本#! /bin/bashcase $1 in"start"){ for i in hadoop01 hadoop02 do echo "--------启动$i采集flume-------------" ssh $i "nohup /opt/soft/flume170/bin/flume-ng agent --conf-file /root/atguigu/flume/flume-

2020-12-11 21:50:06 321

原创 linux集群时间同步

1. 时间服务器配置（必须root用户）（1）每台机器检查ntp是否安装[root@hadoop102 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64没有就安装 yum install -y ntp（2）修改ntp配置文件[root@hadoop102 桌面]# vi /et

2020-12-10 23:28:25 130

原创 Kafka消费者

同一个partition不能被同一组内多个consumer同时读groupcoordinator

2020-12-10 19:19:31 191

原创 tail -f 和tail -F的区别

tail -f 与tail -F的区别这两条命令默认显示文件的最后 10 行tail -f等同于–follow=descriptor，根据文件描述符进行追踪，当文件改名或被删除，追踪停止tail -F根据文件名进行追踪，并保持重试，即该文件被删除或改名后，如果再次创建相同的文件名，会继续追踪...

2020-12-10 14:25:15 117

原创 YAML语法

YAML语法：1、基本语法k:(空格)v：表示一对键值对（空格必须有）；以空格的缩进来控制层级关系；只要是左对齐的一列数据，都是同一个层级的2、值的写法字面量：普通的值（数字，字符串，布尔）k: v：字面直接来写；字符串默认不用加上单引号或者双引号；“”：双引号；不会转义字符串里面的特殊字符；特殊字符会作为本身想表示的意思name: “zhangsan \n lisi”：输出；zhangsan 换行 lisi‘’：单引号；会转义特殊字符，特殊字符最终只是一个普通的字符串数据name:

2020-12-09 21:30:13 164

原创分布式数据库CAP原理

CAP原理C:Consistency（强一致性）A:Availability（可用性）P:Partition tolerance（分区容错性）CAP理论就是说在分布式存储系统中，最多只能实现上面的两点。而由于当前的网络硬件肯定会出现延迟丢包等问题，所以分区容忍性是我们必须需要实现的。所以我们只能在一致性和可用性之间进行权衡，没有NoSQL系统能同时保证这三点。一致性和可用性之间取一个平衡。多余大多数web应用，其实并不需要强一致性。因此牺牲C换取P，这是目前分布式数据库产品的方向。经典CAP图

2020-12-08 22:41:26 109

原创 Kafka生产者

一、分区策略我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值；（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic

2020-12-05 16:27:30 70

原创 Kafka工作流程及文件存储机制

Kafka 工作流程Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic的。topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的 offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继

2020-12-05 15:40:44 99

原创 Kafka基础架构

1）Producer ：消息生产者，就是向 kafka broker 发消息的客户端；2）Consumer ：消息消费者，向 kafka broker 取消息的客户端；3）Consumer Group （CG）：消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。4）Broker ：一台 kafka 服务器就是一个 broker。一个集群由多个 b.

2020-12-04 23:43:19 60

空空如也

空空如也