:）คิดถึง-CSDN博客

原创 clickhouse如何清除多个分区数据 alter table drop partition操作

官网上之有清除单个分区的例子，并没有对清除多个分区的场景进行描述，之前清除分区时也是按照官网例子进行清除分区，今天在执行清除分区语句时，需要解决一次清理多个分区的情况。在进行多次尝试后发现，clickhouse 支持一次清理多个分区数据。官网链接：https://clickhouse.com/docs/zh/sql-reference/statements/alter/partition#drop-partitionpart。通过执行以上语句，成功实现一次清理多个分区的操作。

2024-01-31 17:26:57 1181

原创 python 脚本中关于｜转义的坑

hive 或spark 执行sql 时｜一般使用\进行转义。但是在python脚本中对｜进行转义时需要\\\ 进行转义。

2023-04-10 15:58:35 109

原创记录flink读取kafka数据时checkpoint配置对offset提交的影响

flink 是否启用checkpoint对kafka 消费者offset 提交的影响

2023-03-10 17:42:40 966

翻译 canal-python【搬运】

地址：https://github.com/haozi3156666/canal-python一.canal-python 简介canal-python 是阿里巴巴开源项目 Canal是阿里巴巴mysql数据库binlog的增量订阅&消费组件的 python 客户端。为 python 开发者提供一个更友好的使用 Canal 的方式。Canal 是mysql数据库binlog的增量订阅&消费组件。基于日志增量订阅&消费支持的业务：数据库镜像数据库实时备份多级索引 (卖家和

2021-05-14 13:42:40 572

原创 spark-submit 提交时报错：Exception in thread “main“ java.lang.StackOverflowError

堆栈溢出解决方案进入spark安装目录下的conf文件夹cd /opt/spark/conf/cp spark-defaults.conf.template spark-defaults.confvi spark-defaults.confspark.driver.extraJavaOptions="-Xss30M"

2020-09-11 12:03:55 318

原创 sqoop:数据迁移（环境搭建及使用语法）

百度网盘：sqoop-1.4.6-cdh5.14.2.tar.gzjava-json.jarmysql-connector-java-5.1.27-bin.jar文章目录一、什么是Sqoop二、sqoop安装教程2.1下载并解压2.2配置环境变量2.3 修改sqoop配置文件2.4 拷贝相关jar包2.5 验证sqoop三、sqoop导入导出语法3.1 mysql 导入到 hdfs3.2 导入数据到Hive中3.3 导入数据到HBase中3.4HDFS向MySQL中导出数据3.5 导入文件格式3.6

2020-07-23 23:32:14 1151

原创 HBase：RowKey的设计与优化 ——防止数据倾斜

一、RowKey的设计目的一条数据的唯一标识就是 rowkey，那么这条数据存储于哪个分区，取决于rowkey 处于哪个一个预分区的区间内，设计 rowkey 的主要目的，就是让数据均匀的分布于所有的 region 中，在一定程度上防止数据倾斜二、RowKey的设计原则2.1 Rowkey长度原则Rowkey是一个二进制码流，Rowkey的长度被很多开发者建议设计在10-100个字节，不过建议是越短越好，不要超过16个字节。原因如下：（1）数据的持久化文件HFile中是按照KeyValue存储

2020-07-23 18:45:22 1112

原创 hbase shell常用命令（基本命令和操作命令）

文章目录1、基本命令1.1 查看版本 :`version`1.2 查看状态：`status`1.3 查看当前用户信息：`whoami`1.4 帮助 `help`2、操作命令2.1创建表2.2列出所有表2.3查看表信息2.4判断表是否存在2.5表中插入数据2.6根据rowkey获取数据2.7获取指定CF数据（columns family 列簇）的两种方式2.8获取指定列的数据2.9更新数据2.10修改多版本存储2.11插入多行数据2.12多版本数据查询2.13全扫描2.14指定rowkey范围查询2.15统

2020-07-23 14:08:34 1040

原创报错：ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing解决方案

错误如图：解决方案：1.输入 cd /opt/zookeeper/bin 进入zookeeper文件的bin目录下2.输入zkCli.sh 进入客户端3.删除hbase,输入 rmr /hbase4.关闭hbase输入 stop-hbase.sh如果未能退出，就使用kill -9 进程号强制删除5.重新启动start-hbase.sh此时已经可以正常运行...

2020-07-22 09:26:09 2366

转载 java-lambda表达式理解及应用(jdk1.8之后可以使用)

一、什么是Lambda?我们知道，对于一个Java变量，我们可以赋给其一个“值”。如果你想把“一块代码”赋给一个Java变量，应该怎么做呢？比如，我想把右边那块代码，赋给一个叫做aBlockOfCode的Java变量：在Java 8之前，这个是做不到的。但是Java 8问世之后，利用Lambda特性，就可以做到了。当然，这个并不是一个很简洁的写法。所以，为了使这个赋值操作更加elegant, 我们可以移除一些没用的声明。这样，我们就成功的非常优雅的把“一块代码”赋给了一个变量。而“这块代

2020-07-19 22:10:59 1191

原创 hive 窗口函数--常用函数介绍

一、窗口函数概念窗口函数是一组特殊函数，通过扫描多个输入行来计算每个输出值，为每行数据生成一行结果，可以通过窗口函数来实现复杂的计算和聚合。窗口函数也称为OLAP（Online Analytical Processing）函数，是对一组值进行操作，不需要使用Group by子句对数据进行分组，还能在同一行返回原来行的列和使用聚合函数得到的聚合列。

2020-07-19 19:02:05 1901

原创 hive常用语句大全-库表基本操作

库表基本操作1.1 启动元数据库：`hive --service metastore` （后台显示启动：`nohup hive --service metastore &`）1.2 启动hiveserver2: `hive --service hiveserver2` （后台显示启动：`nohup hive --service hiveserver2 &`）1.3 进入beeline交互模式：`beeline -u jdbc:hive2://localhost:10000`

2020-07-13 22:41:30 1575

原创 hive四种排序区别及使用（order by、sort by、distribute by 、cluster by）

order by全局性排序，不管有多少reduce task，只会启动1个reduce task进行排序sort by根据reduce task数量，只能保证局部有序

2020-07-09 23:01:07 1412

原创 hive分区操作partition——静态分区和动态分区语法、区别及使用场景

一、hive分区概念(partition)1.hive的概念hive 是基于Hadoop的一个数据仓库工具，底层存储是基于 HDFS 进行存储，Hive 的计算底层是转换成 MapReduce任务进行计算，hive可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。简单来讲，①hive并不存储数据 ②提供类sql语法对文件进行操作2.hive分区hive分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一

2020-07-08 23:03:18 5074 3

原创 java正则表达式常用语法(建议收藏，没事儿翻出来看看)

正则表达式常用来搜索、编辑或处理文本，以下是比较常用的正则表达式常用语法字符说明\将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”\"，"\(“匹配”("。^匹配输入字符串开始的位置。$匹配输入字符串结尾的位置。*零次或多次匹配前面的字符或子表达式。例如，zo* 匹配"z"和"zoo"。+一次或多次匹配前面的字符或子表达式。例如，"zo+"与"zo"和"zoo"匹配，但与"z"不

2020-07-02 19:54:09 1197

原创 Linux报错：ssh无法远程连接 ssh network is unreachable 或ssh遇到port 22:No route to host（针对VMware）

在ssh远程连接时出现或者出现出现该错误的原因有可能是在复制虚拟机是并为重新生成mac地址，解决办法为：1.现将虚拟机全部关闭2.打开设置界面3.两个网络适配器都重新生成mac地址（所有的虚拟机都重新生成）4.所有虚拟机都重新生成mac 地址后点击确定并重新开启，进行远程连接生成秘钥 ssh-keygen -t rsa -P ""免密登录 cat .ssh/id_rsa.pub > .ssh/authorized.keys远程连接 ssh-copy-id -i .ss

2020-06-28 14:30:52 8796 1

原创关于elasticsearch索引的操作命令（核心概念、操作语句及分页）

文章目录一、put、post、delete、get方法描述二、数据模型及核心概念三、索引的基本操作1.创建一个索引2.查看当前所有索引3.修改（更新）文档4.删除5.添加数据6.批量操作数据 bulk8.批量读取文档9.搜索数据四、分页1.浅分页（from+size）2.深分页一、put、post、delete、get方法描述method描述PUT创建POST创建、修改DELETE删除GET查询二、数据模型及核心概念①数据模型Index：索引，由多

2020-06-23 23:57:27 289

原创 shell常用命令（变量、运算符、流程控制及权限）

文章目录一、执行shell脚本二、变量的声明三、运算符四.流程控制一、执行shell脚本1.新建并进入sh 文档vi test.sh2.文档编辑格式首行： #!/bin/bash（#表示注释！后面表示默认执行的语言）3.增加执行权限chmod +x test.sh4.执行shell脚本的三种方式：方法一：./test.sh方法二：sh test.sh方法三： /bin/bash test.sh（常用场景：环境配置错误的时候）二、变量的声明1.变量的命名规范：变量名

2020-06-22 20:01:25 281

原创 linux配置jdk环境出现错误：/usr/libexec/grepconf.sh: line 5: grep: command not found 的解决办法

今天在Linux配置完环境source之后出现了以下报错：(针对于在 etc下profile文档配置环境的解决办法)/usr/libexec/grepconf.sh: line 5: grep: command not found1.解决方法如下：输入export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin并进行sourceexport PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/binsour

2020-06-19 16:43:03 9544 8

原创 Linux文件系统及常用命令（包括vi编辑器）

一、Linux常用目录目录名称说明/Linux系统根目录/bin系统启动时需要的执行文件(二进制)/dev设备文件目录/etc操作系统的配置文件目录（防火墙、启动项）/home用户信息存放的目录，用户的默认工作目录/usr程序和数据存放目录/var包含在正常操作中被改变的文件：假脱机文件、记录文件、加锁文件、临时文件和页格式化文件等二、常用的目录操作命令1.切换目录①打开指定目录：cd[目录名称(相对路径或绝对路径)]②打开

2020-06-16 20:17:20 281

weixin_43992185的博客