Drgom-CSDN博客

原创 gc的意义和触发条件

jvm学习随手记录，介绍关于jvm的集中普遍的清理策略

2022-07-07 23:40:50 584

生产者生产者的发送流程简述是生产者发送数据要经过拦截器->序列化->分区器->缓冲区->再到sender集群由kafka的Sender线程读取消费设置设置批次设置batch.size，linger.ms将延长数据被消费的时间，但能显著地提升生产者的效率ack机制ack不同设置的区别不同的ack机制可能产生的问题ack为-1时吞吐量吞吐最低，数据最安全，可能发生重复ack为1时吞吐量，安全性最均衡ack..

2022-02-27 17:14:08 1340 3

原创 sql数据练习

---组内排名select *from (select brank,keyword,sum(price) as `营业额` ,dense_rank() over (partition by keyword order by sum(price) desc) as `排名`from CityRecord group by brank,keyword )t1where `排名`<=10--if匹配语句select item_id, sum(if(flag==1,1,0)) as `.

2022-02-24 15:25:59 320

原创 flink打包运行的clickhouse的jar无法识别问题

问题Caused by: java.sql.SQLException: No suitable driver found for jdbc:ch://t1:8123/alibaba解决策略修改pom，添加scope，设置属性为provided <dependency>  <gro

2022-02-20 20:24:14 1143

原创 win10开启卓越性能

powercfg -s 8c5e7fda-e8bf-4a96-9a85-a6e23a8c635c在powershell输入后会显示

2022-02-19 11:58:49 183

原创 Mavn打包插件以及打包命令

<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-assembly-plugin</artifactId> <version>3.0.0</ve.

2022-02-18 23:20:40 83

原创 flinksql的初始化

Mavn的依赖 <properties> <java.version>1.8</java.version> <maven.compiler.source>${java.version}</maven.compiler.source> <maven.compiler.target>${java.version}</maven.compiler.target>

2022-02-17 19:35:23 666

原创 redis的几种并发场景的问题及解决策略

简介redis作为应用与数据库的中间缓存，用户访问数据源会首先访问redis，查询无数据则直接查询数据库，查询到后，返回的数据会加载到redis里面。在使用的过程中，redis在并发场景，存在缓存穿透，缓存击穿和缓存雪崩等问题。缓存穿透问题当访问key不存在时候，请求会一直打在数据库上，增加了数据库的压力。解决策略一可以先缓存空值key二过滤不正常请求缓存击穿问题当key过期后，大量请求直接压在数据库上，可能导致数据库崩溃解决策略一预加载

2022-02-13 17:22:32 734

原创 redis事务

redis事务不支持完整的acid机制，redis事务的流程分为组队和执行的流程，组队的过程某条命令发生错误，则全部报错，执行过程发生错误，仍继续执行，除了执行失败的命令之外，继续执行，没有事务隔离级别的概念锁机制这里是以redis的单个服务器为基础介绍的，锁分为乐观锁和悲观锁乐观锁乐观锁是以版本号先后以区别的，redis事务监听key，当发现key前后的版本号发生改变，则事务执行失败，而redis的事务的锁就是乐观锁悲观锁没啥说的，全阻塞，原生的redis不能实现...

2022-02-13 13:42:59 590

原创 redis事务

redis事务不支持完整的acid机制，redis事务的流程分为组队和执行的流程，组队的过程某条命令发生错误，则全部报错，执行过程发生错误，仍继续执行，除了执行失败的命令之外，继续执行，没有隔离级别的概念...

2022-02-12 23:25:11 590

原创 xcall和xsync命令

xcall命令#!/bin/bashparams=$@i=1for (( i=1 ; i <= 3 ; i = $i + 1 )) ; do echo ============= hadoop0$i $params ============= ssh hadoop10$i "$params"donexsync命令需要先安装rsync#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if [ $pcount -lt 1

2022-02-12 09:07:02 242

原创 Mysql的binlog日志

存在意义：用于数据恢复和数据复制查看binlog状态暂未开启

2022-02-10 15:48:42 191

原创 Mysql的锁机制

Mysql的锁机制是除了Mysql的MVCC机制外，解决并发过程的幻读等问题的另外的方案，当然性能比mvcc机制较低，因为不允许读写操作并列执行，但是一些特殊机制，必须使用Mysql的锁方案

2022-02-07 13:18:57 901

原创 Mysql事务

事务的基本概念谈到事务,首先要谈到事务的ACID机制 ,ACID包括原子性,一致性,隔离性和永久性.原子性，分别概述一下这四个概念原子性要么全部成功，要么全部失败一致性一致性是指事务执行前后的状态是相同的，指的是事务执行的前后状态符合现实世界的合法性状态隔离性事务不被外部并发的事务干扰永久性一旦事务执行完毕，即永久保存事务的状态事务的状态：活动的（正在进行），部分提交（没有刷写到磁盘里面），失败的，中止的，提交的（数据的安全性由事务日志保障）...

2022-01-27 15:16:54 1097

原创 kafka可视化工具-kafkaUI-lite

在网上找到一个kafka的可视化的工具（gitee地址），在这个界面可以直接查看kafka的主题，消费者组和偏移量，配置也非常简单，gitee上有非常完善的教程

2022-01-23 22:05:19 2565 1

原创 json与对象的序列化和反序列化

json的序列化和反序列化需要用到alibaba的fastjson依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.66</version> </dependency>反序列化将json字符串转化

2022-01-23 20:41:25 324

原创发现了个新玩意-百度的开发者搜索引擎

编程人员的福音

2022-01-22 11:35:58 145

原创 Linux查看端口是否开放

#有输出则则被占用lsof -i:9200netstat关于netstat的知乎这篇文章讲的不错

2022-01-20 22:43:49 2186

原创 es获取basic license

#获取临时licensecurl -XPOST "http://elasticsearch:9200/_license/start_basic?acknowledge=true"#查看license是否注册curl -XGET -u user:password 'http://hadoop101:9200/_license'

2022-01-20 17:26:27 1595

原创 Mysql索引优化

以s1为例，表的结果如下索引如下表的数据如下1选择自增主键主键有序可以发挥索引的作用，同时在新的数据插入时，避免索引的大的改动造成的性能损耗，只需要直接插入即可2避免类型转换类型转化无法走索引，如key1是字符串类型，如果用where使用非字符串类型过滤查找的话，无法发挥索引优势3避免对索引列使用函数使用函数的会使索引失效，如以下语句避免使用左模糊和全文模糊查询使用左模糊和全文模糊查询会让索引失效，右模糊查询下，索引仍然有效4避免进行计算sql的列进行计算的话，索引将无法

2022-01-19 15:21:44 609

原创 Mysql的explain性能分析工具(待补充）

exlain工具的妙用注意 explain分析工具在Mysql5.7之前只能分析select语法，Mysql5.7之后能分析select，update和delete语法explain语法的执行截图（我在name上添加索引）expalin各个字段的说明缺陷

2022-01-18 16:23:04 693

原创 Mysql的InnodB和Myisam比较

Mysql8支持的引擎其中用得比较多的InnodB和Myisam引擎，其中InnodB引擎用得较多，是默认引擎，下图是两者的比较InnodB比起其他引擎具有支持事务（分布式事务）和检查点功能，而Myisam引擎在小数据量和增查环境下更具有优势，但若无特殊要求默认使用InnodB引擎...

2022-01-14 16:50:59 361

原创 Mysql8用户，角色及权限管理

用户及密码管理#创建用户及密码create user 'lin' identified by '123';#修改用户名update mysql.user set user='lin1' where user='lin';#删除用户名drop user 'lin1'#修改当前密码alter user user() identified by 'root';set password='123';#修改其他用户的密码（已取消password函数）set password for 'long

2022-01-13 18:16:10 679

原创 Mysql8的ibd文件简述

mysql8.0的inndb引擎开始将表相关的信息保留在.ibd文件里面，使用mysql集成的软件读取ibdibd2sdi --dump-file=pro.txt pro.ibd如包含数据类型等

2022-01-13 14:46:03 1136

原创基于pyspark的随机森林

import findsparkfrom numpy import frompyfuncfrom pyspark.ml import classificationfrom pyspark.sql.functions import spark_partition_idfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test1').getOrCreate()df =

2021-12-29 23:07:54 1143

原创大数据软件的国内镜像

https://mirrors.cloud.tencent.com/apache/kafka/

2021-12-10 22:05:19 2452

原创 kafka的压测

写测试bin/kafka-producer-perf-test.sh --topic test_perf --num-records 1000000 --record-size 100 --throughput 5000 --producer-props bootstrap.servers=hadoop101:9092以发送100w条数据，每条数据100个字节，每秒发送5000条为例，结果为测试解析一共发送100w条每秒写入0.48m信息，每条信息平均延迟1.07ms，最大延迟573.m

2021-11-13 15:55:16 1223

原创 Vscode配置python环境

添加拓展在设置查找Tconda，输入虚拟环境的名称执行RunAnaconda

2021-11-05 23:10:48 773

原创 Hadoop3的lzo的jar包

Hadoop默认不支持lzo压缩，需要配置hadoop配置lzo压缩lzo的jar链接：https://pan.baidu.com/s/1l1Qc69WebN1HCf1VlQeOXQ提取码：h295

2021-11-05 09:52:03 1177

原创 Hadoop的压测

#测试写能力 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -write -nrFiles 1 -fileSize 128MB#写速度hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.1-tests.jar TestDFSIO -read -nrFiles 1

2021-11-04 16:35:36 1111

原创 awk命令

#过滤输出第一列数字who |awk '{print $1}'检索文件为例#切割txt文件，提取前500行，获取第一列和第五列cat -n 500 touch.txt |awk -F ',' '{print $1,$5}'#过滤提取含有广东省的字段cat -n 500 touch.txt |awk -F ',' '/广东省/ {print $1,$5}'#读取文件提取字段大于356290的指定字段cat touch.txt |awk -F ',' '$1>356

2021-11-04 13:03:18 75

原创 Hadoop文件切分的源码

Hadoop文件的切分原则：一按每个文件切分二文件大小/分片大小《=1.1则划分为一个文件，否则切分为2个文件三一个切片一个Maptask,一个Maptask代表一个并行度分片默认设置分片切分的核心源码public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); long minSize = Math.max(

2021-11-01 18:32:23 674

原创 Hadoop的任务提交流程

Job提交流程的图一判定job的状态判定job的状态二兼容新旧Api三判定集群环境四提交核心源码生成切片信息和配置job.xml （配置）,job.split(切片信息），jar包（本地模式不提交jar包）提交完毕删除缓存信息JobStatus submitJobInternal(Job job, Cluster cluster) throws ClassNotFoundException, InterruptedException, IOException {

2021-11-01 16:32:42 463

原创 hive的Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-572947236

早上起来去跑个hive的sql，稍微复杂点sql，就会报错如 Caused by: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-572947236 等，经过一个一个小时的排查，我觉得可能是我虚拟机的配置不行，刚好有一台华为鲲鹏的学生机，把配置导进去，sql跑起来丝滑的不行，好吧，是我不配，心累。...

2021-10-29 14:28:48 719

原创 Hive提取小时内，分组排名前3的sql

表的结构是这样的，时间的范围我是提取了几个小时内的数据create table `alibaba.user_bea` (user_id bigint, item_id bigint, cate_id bigint, times string, bea int )PARTITIONED BY (dt STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS orc;提

2021-10-29 14:01:23 557

原创 Hive的schematool: command not found

切换到bin目录下，让schematool拥有可执行权限chmod 777 schematool

2021-10-29 09:45:12 2262

原创 Hive的分区和分桶

为了避免全表扫描，优化查询性能，我们可以使用分区和分桶表将数据细化，分桶表是分区表的进阶阶段，分桶表是使用表的字段进行进一步细分数据，分区则是指定外部的字段来分区分区表create table `alibaba.orders` ( order_id bigint, user_id bigint, item_id bigint, times string, name string, address string, phone string, key

2021-10-25 17:09:41 129

原创 centos7配置ssh免密

设定有三台虚拟机，生成密钥后，将密钥保存到hadoop101，再由hadoop101，分发给另外两台虚拟机#查看是否安转sudo yum list installed |grep openssh#z输入回车生成密钥ssh-keygen -t rsa#传递密钥ssh-copy-id hadoop101#密钥的分发scp authorized_keys hadoop103:~/.ssh/...

2021-10-24 11:19:37 1911