治愈爱吃肉-CSDN博客

原创 JVM学习篇

前面说过标记清除算法的弊端，是个非常消耗资源的操作，图中(2/3)的意思时老年代所占整个堆内存空间大小的比例，加入一个java项目，堆内存分配 900M , 老年代分配600m，年轻代分配300meden: 240mfrom:30mto:30m)，由此可以知道，当老年代有消耗资源的操作，当老年代进行垃圾回收时，项目会处于静止状态，具体体现为：程序运行缓慢，如果经常出现在服务器上，那对我们来说无疑又是一个线上事故，所以我们将这种因老年代回收垃圾产生的问题，统一归成为”STW。

2023-02-23 00:26:06 142

原创 Collection和Map总结

LinkedHashMap并没有重写HashMap的put方法，而是吧put方法内部的newNode()方法重写了，LinkedHashMap调用父类的put方法，里面回调的是重写后的newNode()容器默认的数组大小 initialCapacity 为 16，也可自己设置，HashMap 会根据我们传入的容量计算一个大于等于该容量的最小的2的N次方，例如传 9，容量为16。初始容量的默认值是16(数组)，它也一样，无论初始化大了还是小了，对我们的HashMap都会有影响的。

2023-02-19 22:16:38 124

原创 Spark工作总结（干货篇）

Spark工作总结

2022-09-28 10:56:23 3486

原创 python项目服务器部署上线

python项目服务器部署上线

2022-09-28 10:54:15 483 1

原创 hive使用总结

hive使用总结

2022-09-28 10:47:51 435

原创数仓建模知识总结

个人平时工作对数仓建模的简单总结，持续更新

2022-09-28 10:47:02 250

原创 Hive实际工作场景Sql题(业务自想)

3年大数据开发经验，结合业务所需构思的工作时常遇`sql`效果场景(实际业务场景可结合`sql`题自我构思)

2022-09-28 10:33:53 439

原创 ZK、Hadoop、Hbase、Spark、Flink、Redis等集群生态安装文档(持续更新)

zookeeper、hadoop、kafka、hive、flink、spark、kafkamanager、clickhouse、sqoop、hbase、flume、redis集群安装手册，其中spark、flink、hive(mapreduce)采用的是提交至yarn资源管理器执行任务方式，所以采用单节点配置

2022-09-28 10:21:07 809

原创 Redis集群学习笔记

Redis集群学习笔记

2022-09-28 09:45:54 603

原创 Opentsdb On Hbase 设计 region 预分区

Opentsdb On Hbase 设计 region 预分区如何查看region读写是否分布均匀方法一: 通过hbase webui页面a) 查看opentsdb.conf 中指定的存储数据点的HBase表名由此得知表名是tsdbb) 通过hbase ui 查看数据分布 hbase版本不同查看方式会有出路方法二:通过查看hdfs目录结构c) 查看hdfs目录下文件大小是否平衡如何设计hbase rowkeyOpentsdb源码中 rowkey生成插入数

2022-02-15 08:57:25 462

原创带你学习Hive的多维立方体

多维立方体概述: 实际生产中，各种指标的报表统计，往往都会设计到多维分析，比如: 统计日活数量，日会话数量，日会话次数，日回头访问数，日新增，日用户平均访问时长，访问深度等，都可以从以下纬度来分析:时间段省市区等地域纬度设备类型操作系统App版本App下载安装渠道而数据分析师，可能会提出各种各样的"纬度组合"下的指标统计需求省: 日活总数省、市:日活总数手机型号，日活总数省，手机型号，日活总数如果上述纬度分析需求，都逐个开发计算sql(逐个去group by 聚合)

2021-05-09 15:18:30 334

原创 Zookeeper水平扩展节点

zookeeper水平扩展节点方案:方案1:对每个节点的zoo.cfg文件进行修改，添加server节点信息，之后重启zk服务器，达到水平扩展节点方案2:不重启zk服务器，将修改好的zoo.cfg文件发送至各个节点，开启新增节点，因为zk的心跳机制，可以将zk加入至zk集群中，但是信息不一致需要手动将zk中的信息同步过去，例如采用java，python代码转移，一般CDH水平扩展zk节点采用的也是同样的方法个人博客 www.yazz.top 更多Java，大数据，python学习资料...

2021-03-21 14:16:29 418

原创 Spark学习(一)

文章目录RDD产生的条件(3种)Spark的弹性体现持久化和checkpoint的区别Spark集群管理器Spark核心概念介绍Master:Worker:Spark中`client`和`cluster`提交的区别Standalone-ClientStandalone-ClusterYarn-ClientYarn-clusterSpark资源调度和任务调度的流程资源调度：任务调度：粗粒度资源申请和细粒度资源申请粗粒度资源申请(代表Spark)细粒度资源申请(代表MR)RDD产生的条件(3种)从集合中创

2021-01-25 15:35:55 278 2

转载 Kafka 配置参数

转载自：http://ju.outofmemory.cn/entry/119243 Kafka为broker,producer和consumer提供了很多的配置参数。了解并理解这些配置参数对于我们使用kafka是非常重要的。本文列出了一些重要的配置参数。官方的文档 Configuration比较老了，很多参数有所变动，有些名字也有所改变。我在整理的过程中根据0.8.2的代码也做了修正。...

2020-12-31 11:07:28 375

原创 Spark算子总结

Spark算子总结文章目录Spark算子总结Transformations转化算子Value类型MapmapPartitionsmapPartitionWithIndex(`func`)flatMap(`func`)glomgroupByfilterdistinctrepartition(`numPartitions`)sortBy(`func`)双Value类型交互unionsubtractintersectionKey-Value类型groupByKeyreduceByKeysortByKeyjoin

2020-12-31 08:48:30 213

原创定义一个Mysql存储过程

定义一个Mysql存储过程CREATE PROCEDURE sp_test () BEGIN # 定义字符串id 类型 DECLARE id VARCHAR(36); # 定义布尔类型 done DECLARE done INT DEFAULT FALSE; # 将查询结果集给examIds DECLARE examIds CURSOR FOR select order_id from t_order; # 将结束标志绑定到游标 DECLARE CONTINUE HANDL

2020-09-19 13:55:22 150

原创 HDFS解决小文件问题

HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引，这个索引的大小越为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，不仅会占用大量的NameNode内存，同时NameNode中索引文件过大，导致索引速度过慢小编工作中就遇到过因为小文件过多而产生的问题:主NameNode宕机时，备用NameNode启动过慢，那是大家都以为是环境配置问题，到最后才发现是因为小文件过多，索引信息太大，才会导致备用NameNode启动过慢HDFS小文件解决方案1) 数

2020-08-25 19:57:53 226

原创用户回复频率控制Redis

Redis 项目常见场景需求：用户回复频率控制项目的社区功能里，不可避免的总是会遇到垃圾内容，一觉醒来你会发现首页突然会被某些恶意的帖子和广告刷屏了，如果不采取适当的机制来控制就会导致用户体验受到严重的影响控制广告垃圾贴的策略很多，高级一点的可以通过AI，最简单的方式是通过关键词扫描，还有比较常用的一种方式是频率控制，限制单个用户内容的生产速度，不同等级的用户会有不同的频率控制参数使用Redis来实现频率控制（青铜1小时3贴白银1小时5贴黄金1小时8贴）方案一：第一步：记录某个IP访

2020-08-22 11:08:38 186

原创通俗易懂十大排序算法

算法复杂度什么是算法的复杂度？算法复杂度可分为时间复杂度和空间复杂度时间复杂度：对应的是这个算法所需要的计算工作量所消耗的时间一个算法中语句执行次数称之为语句频度或时间频度为了描述时间频度变化引起的变化规律，引入时间复杂度空间复杂度：对应的是这个算法所需要的内存空间大小空间复杂度可以通过钱解决加内存，所以我们学习算法复杂度时，重点要倾向于时间复杂度上，但是有些特殊情况下，空间复杂度会比时间复杂度更为重要。时间复杂度一个算法花费的时间与算法中语句的执行次数成正比，

2020-08-22 10:59:32 101

原创整理21道 Java面试挑战题

整理21道 Java挑战面试题1. 为什么HashMap中String、Integer这样的包装类适合作为Key1、String和Integer等这些类都被final修饰，具有不变性；也保证了key的不变性，并且内部重写了equals和hashCode方法，不容易出现hash计算错误2、String和Integer保证了hash值得不可变性和准确性，有效减少了hash碰撞3、String和Integer一定重写了equals和hashCode方法2. ConcurrentHashMap和Hasht

2020-08-06 08:44:10 251

治愈系的博客