自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

治愈系的博客

Java、Python、大数据、系统

  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 JVM学习篇

前面说过标记清除算法的弊端,是个非常消耗资源的操作,图中(2/3)的意思时老年代所占整个堆内存空间大小的比例,加入一个java项目,堆内存分配 900M , 老年代分配600m,年轻代分配300meden: 240mfrom:30mto:30m),由此可以知道,当老年代有消耗资源的操作,当老年代进行垃圾回收时,项目会处于静止状态,具体体现为:程序运行缓慢,如果经常出现在服务器上,那对我们来说无疑又是一个线上事故,所以我们将这种因老年代回收垃圾产生的问题,统一归成为”STW。

2023-02-23 00:26:06 142

原创 Collection和Map总结

LinkedHashMap并没有重写HashMap的put方法,而是吧put方法内部的newNode()方法重写了,LinkedHashMap调用父类的put方法,里面回调的是重写后的newNode()容器默认的数组大小 initialCapacity 为 16,也可自己设置,HashMap 会根据我们传入的容量计算一个大于等于该容量的最小的2的N次方,例如传 9,容量为16。初始容量的默认值是16(数组),它也一样,无论初始化大了还是小了,对我们的HashMap都会有影响的。

2023-02-19 22:16:38 124

原创 Spark工作总结(干货篇)

Spark工作总结

2022-09-28 10:56:23 3486

原创 python项目服务器部署上线

python项目服务器部署上线

2022-09-28 10:54:15 483 1

原创 hive使用总结

hive使用总结

2022-09-28 10:47:51 435

原创 数仓建模知识总结

个人平时工作对数仓建模的简单总结,持续更新

2022-09-28 10:47:02 250

原创 Hive实际工作场景Sql题(业务自想)

3年大数据开发经验,结合业务所需构思的工作时常遇`sql`效果场景(实际业务场景可结合`sql`题自我构思)

2022-09-28 10:33:53 439

原创 ZK、Hadoop、Hbase、Spark、Flink、Redis等集群生态安装文档(持续更新)

zookeeper、hadoop、kafka、hive、flink、spark、kafkamanager、clickhouse、sqoop、hbase、flume、redis集群安装手册,其中spark、flink、hive(mapreduce)采用的是提交至yarn资源管理器执行任务方式,所以采用单节点配置

2022-09-28 10:21:07 809

原创 Redis集群学习笔记

Redis集群学习笔记

2022-09-28 09:45:54 603

原创 Opentsdb On Hbase 设计 region 预分区

Opentsdb On Hbase 设计 region 预分区如何查看region读写是否分布均匀方法一: 通过hbase webui页面a) 查看opentsdb.conf 中 指定的存储数据点的HBase表名 由此得知表名是tsdbb) 通过hbase ui 查看数据分布 hbase版本不同查看方式会有出路方法二:通过查看hdfs目录结构c) 查看hdfs目录下文件大小是否平衡如何设计hbase rowkeyOpentsdb源码中 rowkey生成插入数

2022-02-15 08:57:25 462

原创 带你学习Hive的多维立方体

多维立方体概述:​ 实际生产中,各种指标的报表统计,往往都会设计到多维分析,比如: 统计日活数量,日会话数量,日会话次数,日回头访问数,日新增,日用户平均访问时长,访问深度等,都可以从以下纬度来分析:时间段省市区等地域纬度设备类型操作系统App版本App下载安装渠道而数据分析师,可能会提出各种各样的"纬度组合"下的指标统计需求省: 日活总数省、市:日活总数手机型号,日活总数省,手机型号,日活总数如果上述纬度分析需求,都逐个开发计算sql(逐个去group by 聚合)

2021-05-09 15:18:30 334

原创 Zookeeper水平扩展节点

zookeeper水平扩展节点方案:方案1:对每个节点的zoo.cfg文件进行修改,添加server节点信息,之后重启zk服务器,达到水平扩展节点方案2:不重启zk服务器,将修改好的zoo.cfg文件发送至各个节点,开启新增节点,因为zk的心跳机制,可以将zk加入至zk集群中,但是信息不一致需要手动将zk中的信息同步过去,例如采用java,python代码转移,一般CDH水平扩展zk节点采用的也是同样的方法个人博客 www.yazz.top 更多Java,大数据,python学习资料...

2021-03-21 14:16:29 418

原创 Spark学习(一)

文章目录RDD产生的条件(3种)Spark的弹性体现持久化和checkpoint的区别Spark集群管理器Spark核心概念介绍Master:Worker:Spark中`client`和`cluster`提交的区别Standalone-ClientStandalone-ClusterYarn-ClientYarn-clusterSpark资源调度和任务调度的流程资源调度:任务调度:粗粒度资源申请和细粒度资源申请粗粒度资源申请(代表Spark)细粒度资源申请(代表MR)RDD产生的条件(3种)从集合中创

2021-01-25 15:35:55 278 2

转载 Kafka 配置参数

转载自:http://ju.outofmemory.cn/entry/119243 Kafka为broker,producer和consumer提供了很多的配置参数。 了解并理解这些配置参数对于我们使用kafka是非常重要的。 本文列出了一些重要的配置参数。 官方的文档 Configuration比较老了,很多参数有所变动, 有些名字也有所改变。我在整理的过程中根据0.8.2的代码也做了修正。...

2020-12-31 11:07:28 375

原创 Spark算子总结

Spark算子总结文章目录Spark算子总结Transformations转化算子Value类型MapmapPartitionsmapPartitionWithIndex(`func`)flatMap(`func`)glomgroupByfilterdistinctrepartition(`numPartitions`)sortBy(`func`)双Value类型交互unionsubtractintersectionKey-Value类型groupByKeyreduceByKeysortByKeyjoin

2020-12-31 08:48:30 213

原创 定义一个Mysql存储过程

定义一个Mysql存储过程CREATE PROCEDURE sp_test () BEGIN # 定义字符串id 类型 DECLARE id VARCHAR(36); # 定义布尔类型 done DECLARE done INT DEFAULT FALSE; # 将查询结果集给examIds DECLARE examIds CURSOR FOR select order_id from t_order; # 将结束标志绑定到游标 DECLARE CONTINUE HANDL

2020-09-19 13:55:22 150

原创 HDFS解决小文件问题

HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小越为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,不仅会占用大量的NameNode内存,同时NameNode中索引文件过大,导致索引速度过慢小编工作中就遇到过因为小文件过多而产生的问题:主NameNode宕机时,备用NameNode启动过慢,那是大家都以为是环境配置问题,到最后才发现是因为小文件过多,索引信息太大,才会导致备用NameNode启动过慢HDFS小文件解决方案1) 数

2020-08-25 19:57:53 226

原创 用户回复频率控制Redis

Redis 项目常见场景需求:用户回复频率控制项目的社区功能里,不可避免的总是会遇到垃圾内容,一觉醒来你会发现首页突然会被某些恶意的帖子和广告刷屏了,如果不采取适当的机制来控制就会导致用户体验受到严重的影响控制广告垃圾贴的策略很多,高级一点的可以通过AI,最简单的方式是通过关键词扫描,还有比较常用的一种方式是频率控制,限制单个用户内容的生产速度,不同等级的用户会有不同的频率控制参数使用Redis来实现频率控制(青铜1小时3贴 白银1小时5贴 黄金1小时8贴)方案一:第一步:记录某个IP访

2020-08-22 11:08:38 186

原创 通俗易懂十大排序算法

算法复杂度什么是算法的复杂度?算法复杂度可分为时间复杂度和空间复杂度时间复杂度:对应的是这个算法所需要的计算工作量所消耗的时间一个算法中语句执行次数称之为 语句频度或 时间频度为了描述时间频度变化引起的变化规律,引入时间复杂度空间复杂度:对应的是这个算法所需要的内存空间大小空间复杂度可以通过钱解决加内存,所以我们学习算法复杂度时,重点要倾向于时间复杂度上,但是有些特殊情况下,空间复杂度会比时间复杂度更为重要。时间复杂度一个算法花费的时间与算法中语句的执行次数成正比,

2020-08-22 10:59:32 101

原创 整理21道 Java面试挑战题

整理21道 Java挑战面试题1. 为什么HashMap中String、Integer这样的包装类适合作为Key1、String和Integer等这些类都被final修饰,具有不变性;也保证了key的不变性,并且内部重写了equals和hashCode方法,不容易出现hash计算错误2、String和Integer保证了hash值得不可变性和准确性,有效减少了hash碰撞3、String和Integer一定重写了equals和hashCode方法2. ConcurrentHashMap和Hasht

2020-08-06 08:44:10 251

原创 Kafka 简单易懂版本

消息队列什么是消息队列?消息队列,一般简称为MQ,消息(Message) + 队列(Queue) 的简写,而队列是一种先进先出的数据结构KakkaKafka是一个消息队列,把消息放到队列里面的叫生产者,从队列里面消费的叫消费者。一个消息中间件,队列不单单只有一个,我们往往会有多个队列,而我们生产者和消费者就得知道:把数据丢到哪个队列,从哪个队列得到消息,我们就需要给队列取名字,叫做topic,与队列一一对应,相当于数据库里表的概念现在我们给队列去了名字后,生产者就知道往哪个队列丢数据了

2020-07-27 09:16:45 159

转载 Hbase预分区

Hbase预分区什么是预分区HBase表在刚刚创建时,只有一个分区(Region),当一个region过大(达到 **hbase.max.filesize ** 属性中定义阈值,默认10GB)时,表将会进行split,分裂成2个分区,表在进行split的时候,会消耗大量资源,频繁的分区对HBase的性能有巨大的影响。HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。预分区的目的是什么减少由于Region split带来的资源消耗,从而提高HBase性能如何预

2020-07-16 16:51:41 189

原创 重装系统-入门到精通-window系统

2020年06月18日 19:24:00 治愈系重装系统流程该教程采用 UltraISO 制作操作U盘,某宝上卖的傻瓜式重装系统的U盘,思想与此文章一致一、所需设备重装系统前软件:UltraISO软碟通 (电脑管家直下)操作系统:Windows 10操作系统迅雷下载链接:ed2k://|file|cn_windows_10_multiple_editions_x64_dvd_6848463.iso|4303300608|94FD861E82458005A9CA8E6173.

2020-07-14 17:21:08 332 1

原创 JVM虚拟机原理及JVM调优

JVM虚拟机JVM运行流程生成.class可执行 >>> 类装载子系统 >>> 运行时数据区(内存模型) >>> 字节码执行引擎内存模型栈局部变量表​ 存放局部变量操作数栈​ 存放临时的操作数区域动态链接方法出口堆​ 开辟内存空间,创建对象方法区​ 常量 + 静态变量 + 类信息本地方法栈​ native修饰,底层C语言实现的​ 本地方法栈运行的区域**(例如:加减操作)**程序计数器​ 最经典的示例:多线程挂

2020-06-23 10:43:28 357

原创 ConcurenthashMap并发容器

ConcurenthashMap并发容器为什么要用ConcurentHashMap?​ Coucurrent翻译过来就是并发得意思,处理并发情况下的HashMap, 并发下不安全,hashMap的put方法不是原子操作,假设Thread1先put值,然后sleep秒,线程二修改HashMap的value值,这时候Thread1再次醒来的时候,发现get不到原来的值了,值已经被thread2所修改了HashMap:存储的数据可能会被修改,导致取到的值不一致,会被其他线程所修改HashTabe:存储

2020-06-23 09:22:34 186

原创 原生java代码实现码云第三方验证登录

码云第三方验证登录研究了QQ,码云,微信等第三方登录接口时,发现QQ以及微信第一步都需要验证授权管理,而且个人测试需要提供手持身份证一张,并且验证时间过长( 3天工作日左右吧 ),这样会非常浪费大家学习第三方接口登录的时间,终于, 在我的不屑努力下,找到了适合大家快速上手,测试第三方接口登录的平台-————码云(看网上帖子说某WX接入还要开发者认证,人民币300元)一、在码云上创建应用1、在...

2020-03-25 20:35:57 1465 1

原创 Python+Selenium实现最E网自动填卷

Python实现最E网10积分自动做题 朋友推荐的最E网调查问卷,刚开始做挺开心的,后面发现老是要自己点选项,总感觉特别浪费时间,填的想吐,长的调查需要做半个小时多,还有可能失败。于是我将重心放到了10积分的小调查了,又快又没坑,但总无脑做感觉巨没意思,正好楼主是个程序员,喜欢研究些辅助脚本。这时候又到了我大Python出马的时候了,作为21世纪现代人,当然得来点智能的了,废话说多了,开搞。...

2020-01-21 23:17:45 2848 1

服务器笔记

只是简单的java服务器笔记,希望对你有帮助,我当初也是走了许多弯路

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除