自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 iptables使用详解

如何使用Iptables实现网络安全访问?iptables为什么默认限制不了docker暴露的端口?

2022-10-16 10:46:53 32073 4

原创 《穷爸爸和富爸爸》&《思考致富》读后感

背景最近看了两本偏鸡汤的书,《穷爸爸和富爸爸》以及《思考致富》。总体而言,前一本鸡汤味少一点,厚一本鸡汤味浓一点。但鸡汤这个事儿,有些人喝了确实补了身体。有些人喝了各种不适,是为毒鸡汤。见仁见智吧。《穷爸爸和富爸爸》我们每个人都有一堆的梦想、理想、愿望。但现实又有各种镣铐,于是诗和远方的想象,往往伴随着一些口头禅等我有钱了。。。、等我退休了。。。、等我财务自由了。。。。其根本原因是我们没有时间。时间的自由即为财务自由,也即我们不用为了三斗米而出卖自己的时间和精力。财务自由可以是一夜暴富,短时间挣够

2022-06-18 20:33:53 206

原创 《基地》读后感

《基地》读后感[TOC]基地系列最早出版于1942年。1966 年基地系列获得雨果奖“史上最佳科幻小说系列” ,由于过于成功,1981年,作者阿西莫夫被出版商说服,继续续写该系列,陆续出版至1993年。 从第一部到最后一部,时间跨度达51年,足有半个多世纪,可谓名正言顺的世纪经典。故事梗概在未来的某个时间,人类文明高度发达,不光制造出了智慧媲美人类的机器人,甚至人类还将文明散播到了整个银河系。但人类文明有自身的局限性和周期性,那就是当文明发展到一定阶段后,就会出现僵硬腐化衰退,最后由于内部倾轧或战

2022-05-03 21:53:05 262

原创 什么是NFT?

什么是NFT?我有一个年轻朋友,最近买了一个数字艺术品,9百多入手,几周后卖掉,赚了7万多,他告诉我这个东西叫NFT。2021年twitter创始人杰克.多西将自己发布的第一条twitter通过NFT以250万美元卖出,它长这样2021年一个由计算机生成的名为《CryptoPunk 7804》的图片,通过NFT卖了756万美元, 它长这样2021年艺术家Mike Winkelmann通过NFT以6930万美元卖了一幅名为《Everydays: the First 5000 Days》的拼图画,

2022-03-06 15:44:50 8031

原创 内向性格的力量

以下内容是对ted演讲《The power of introverts》的一些感想总结,演讲者是Susan Cain。她同时也是《安静》一书的作者内向和外向是人的不同性格光谱,内向和外向不是绝对互斥的,一个内向的人,也可能在某些场合表现出外向,人的性格往往是复杂而非单一的。内向也不等同于害羞,害羞是对社交感到压力,而内向的人则需要在更安静、独处的环境下才能迸发出创造力或者深度思考。反之外向的人则需要很多外部刺激,他们需要别人的关注,需要在热闹的环境下称为焦点。但当今社会的价值取向和环境塑造,似乎偏..

2022-02-27 20:41:24 195

原创 访问者模式学习笔记

什么是访问者模式

2022-02-08 17:01:36 101

原创 Serverless概念

云服务的演化历程整个it系统服务的搭建,随着时间有多个层级的演化。从最早的内部部署(On-premises) 到基于云的Iaas,Paas,Saas,Baas, Faas。服务的构建对开发者越来友好,也更低成本。内部部署(On-premises)最早的IT系统在部署时,其依赖的所有环节,皆需IT企业自己搞定,成本和门槛都很高。服务器要放置在机房管理,服务器上要装系统,机房需要打通网络,磁盘不够要买硬盘,此外还要考虑多机房灾备等等。这些对大企业来说尚且有难度的种种,对创新企业更是难上加难。于是以亚马

2022-01-23 21:27:02 488

原创 Linux TOP 命令

前言top命令分为汇总区和任务明细区汇总区运行时间和当前登录到系统的用户当前时间是15:39:37. 系统已经运行了90天,15个小时,26分钟。当前有两个活跃用户内存使用上下两行以kb形式展示物理内存和swap内存的总计,空闲(free), 已使用(total)的情况其中buff/cache ,是在cpu读写硬盘数据时,为了提速在内存中开辟的缓冲(buffer针对写)或缓存区域(cache针对读)avail mem 是创建新进程时,在不使用swap分区的情况下,能够分配的内存大小。这

2022-01-16 11:44:43 535

原创 Linux sed 命令

[TOC]sed命令整体可以干嘛总体而言,sed命令可以对文本进行查找、删除、插入、替换等操作。它跟vim或者vi命令最大的去区别是,后者只能通过人工交互的方式,对文本进行处理。而很多时候,我们希望脚本自动化的进行文本处理,那么sed无疑是我们的好帮手命令简介sed OPTIONS [SCRIPT] [INPUTFILE...] OPTIONS 用于指定对处理后的文本的一些输出行为,比如-i,-n,后续会详解SCRIPT 定义实际的处理行为,比如想要查询什么、删除什么、插入什么INPUTFI

2021-12-05 11:00:18 475

原创 基于hadoop_yarn的资源隔离配置

[TOC]yarn的基本概念yarn由两部分组成:ResourceManager 负责整个集群资源的管理和分配NodeManager 管理很多容器,容器中运行着正真的分布式计算程序,比如flink,或者spark。NodeManager需要向ResourceManager上报自己的任务运行情况,同时向ResourceManager发起资源申请从客户端向yarn提交的应用,最终都根据其资源需求,被放在NodeManager的容器中执行。yarn会对每个应用启动一个ApplicationMast

2021-11-14 14:52:27 1144

原创 Hive架构及搭建方式

Hive架构及搭建方式[TOC]前言本文档基于hive 3.1.2编写hive的基础知识基本架构整个hive由hiveserver2和hive 客户端组成hive客户端有三种,beeline 、使用jdbc链接hiveserver、或使用hive CLI(这个已经过时,hive官方已经不推荐,推荐beeline)hive server本身由hive server2和metastore组成metastore是hive的元数据管理组件hcatalog 架设在metastore上,暴露一组

2021-10-23 15:43:58 890

原创 使用远程Docker进行集成测试

[TOC]需求背景团队有集成测试的需求,集成测试需要依赖一些中间件,比如mysql,rabbitmq。每个研发人员有对自己开发的那部分代码进行测试编写和运行检测的需求。为了不互相影响,可以选择在研发本地搭建自己的依赖环境,我们希望这些环境搭建要容易、快速,且方便清理。使用docker进行环境搭建而docker,则能很好实现上述诉求。但仅仅这样还不够,我们还面临着以下一些问题本地环境搭建的繁琐。每个研发,都要在本地安装docker环境,这会导致在使用上的一些门槛和不便,以我司为例,由于有严格的

2021-07-04 12:23:21 235

原创 基于kerberos的hadoop安全集群搭建

[TOC]上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。前置条件我所在的集群有三台服务其,对应的host分别为master,slave1,slave2。hadoop服务的安装分部为机器host组件情况masternamenode、datanode、journalnode、resourcemanager、nodemanager、jobhistoryserver

2021-06-20 11:16:34 628

原创 Hadoop学习笔记—Yarn

Hadoop学习笔记—Yarn@(Hadoop)[hadoop, yarn][TOC]上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。一些基本知识ResourceManager 的恢复当ResourceManager 挂掉重启后,为了使之前的任务能够继续执行,而不是重新执行。势必需要yarn记录应用运行过程的状态。运行状态可以存储在ZooKeeper FileSyste

2021-04-10 15:29:31 185

原创 Hadoop学习笔记—HDFS

[TOC]上一份工作主要负责大数据平台的建设,在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记,由于时间关系,不打算去修改其中的错别字和排版问题,直接释出原始笔记。搭建安装三个核心组件一个hadoop基本集群,牵涉三个组件:hdfs 负责分布式的文件存储yarn 负责分布式的资源管理mr 负责分布式计算安装配置环境变量配置etc/hadoop/hadoop-env.sh、etc/hadoop/hadoop-env.sh、etc/hadoop/yarn-env.sh 这三个脚

2021-04-03 17:51:41 341

原创 Elasticsearch如何保证数据不丢失?

[TOC]如何保证数据写入过程中不丢数据写入请求达到时,以需要的数据格式组织并写入磁盘的过程叫做数据提交,对应es就是创建倒排索引,维护segment文件如果我们同步的方式,来处理上述过程,那么系统的吞吐量将很低如果我们以异步的方式,先写入内存,然后再异步提交到磁盘,则有可能因为机器故障而而丢失还未写入到磁盘中的数据为了解决这个问题,一般的存储系统都会设计transag log (事务日志)或这write ahead log(预写式日志)。它的作用时,将最近的写入数据或操作以日志的形式直接落盘,从

2021-01-24 17:09:50 786

原创 LSM(Log Structured Merge Trees ) 笔记

[TOC]一、大幅度制约存储介质吞吐量的原因首先抛出结论。无论任何存储介质(不管是机械硬盘还是SSD,抑或是内存)的顺序访问速度都远远高出随机访问的速度。二、传统数据库的实现机制传统数据库,比如Mysql使用的b+树索引,对读友好。但容易造成随机写。比如新插入一个值到数据库,首先我们要读取b+树,判断新插入的值放在树的什么位置,其次在特定的位置写入新值,并做一系列调整,分裂,使之满足b+树的特性。这不可避免的造成了磁盘的随机访问,大数据量的插入速度很慢。当然这也符合历史发展趋势,早起的IT行业,数

2021-01-24 16:51:50 250

原创 Apache Hudi使用简介

Apache Hudi使用简介[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、Spark Streaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的Apache Hudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台,比如Hive中。业务场景和技术选型传统的离线数仓,通常数据是T+

2020-12-27 19:47:17 2282

原创 Clickhouse 入门

clickhouse 简介ck是一个列式存储的数据库,其针对的场景是OLAP。OLAP的特点是:数据不经常写,即便写也是批量写。不像OLTP是一条一条写大多数是读请求查询并发较少,不适合放置先生高并发业务场景使用 , CK本身建议最大一秒100个并发查询。不要求事务click的优点为了增强压缩比例,ck存储的一列长度固,于是存储的时候,不用在存储该列的长度信息使用向量引擎 , vector engine ,什么是向量引擎?https://www.infoq.cn/article/col

2020-11-30 22:46:50 924

原创 如何排查Java应用内存泄漏问题

什么是内存泄漏内存泄漏是指java应用的堆内存使用率持续升高,直至内存溢出。内存泄漏的的原因可能有多种分配给应用程序的内存本身过小。而应用的业务代码,确实需要生成大量的对象代码bug,某些需要被回收的对象,由于代码bug,却持续的被引用,导致java虚拟机无法回收这些对象。从而撑爆内存无论哪种内存泄露,我们的解决方法都是要定位到具体是什么对象,占用了大量内存,从而方便我们基于此进行代码分析,debug,找出代码问题。而能够帮助我们实现这一目的的方式就是获取java应用的内存 dump如何获

2020-11-23 21:36:05 235 1

原创 docker compose 用法

[TOC]docker compose的使用场景我们开发的时候,一个应用往往依赖多个服务。采用传统的docker run方式,要挨个启动多个服务,甚至需要配置对应的网络,过程比较繁琐,很不方便。 docker compose旨在通过将多服务的构建和依赖关系都编写在docker-compose.yml中,通过docker-compose命令,即可完成对整个服务集群的启动,关闭等操作。一个基本的demo演示demo的功能是一个简单的python程序,暴露一个web服务。该服务用于统计当前服务被访问的次数

2020-10-25 22:56:41 403

原创 WSL2 bug

错误现象Stdout:Stderr:2020/05/27 20:01:37 resolving /mnt/host/c/Program Files/Docker/Docker/resources/wsl/docker-wsl-cli.iso...Error: mounting wslCLIDest: stat /mnt/host/c/Program Files/Docker/Docker/resources/wsl/docker-wsl-cli.iso: no such file or direc

2020-10-11 11:56:55 235

原创 Maven依赖管理之BOM

文章目录什么是BOM一个BOM的格式怎么使用BOM通过parent引用通过dependencyManagement引用怎么查看依赖的某个BOM的具体清单版本冲突时的一些规则何为依赖调节参考资料什么是BOMBOM全称是Bill Of Materials,译作材料清单。BOM本身并不是一种特殊的文件格式,而是一个普通的POM文件,只是在这个POM中,我们罗列的是一个工程的所有依赖和其对应的版本。该文件一般被其它工程使用,当其它工程引用BOM中罗列的jar包时,不用显示指定具体的版本,会自动使用BOM对应的j

2020-09-28 23:48:51 1047

原创 指标系统计算架构设计

前言前一篇《指标管理系统设计》,我讲了指标体系要解决的问题,以及指标系统宏观搭建和模型上的设计。其中对具体实施时的计算存储架构说的不是特别清楚。这一篇,我将着重介绍指标计算架构的设计。过往的一些实现问题指标体系跟标签体系其实有些类似,都有很多的字段,甚至在某种程度上,他们还可以成为依托关系。比如标签系统可以使用指标体系作为数据基础,当然这是题外话。这里列举下我之前参与的标签系统和一些报表开发所存在的问题。下图是一个标签系统的的标签加工逻辑片段,这个脚本一次性的将标签体系中的所有标签挨个计算出来下

2020-09-26 17:22:13 1123

原创 Spock测试套件入门

文章目录Spock测试套件核心概念整体认识前置、后置同junit的类比Feature 方法blocks典型的用法异常conditionthen和expect的区别cleanup block的用法测试用例中的文本描述Extension数据驱动测试数据表另外的写法更清晰的测试结果展示更丰富的数据准备方式基于交互的测试(Interaction Based Testing)对依赖Mock的调用期望,其结构如下一些通配符严格模式(Strict Mocking)调用顺序Stubbing 定义方法返回stubbing 返

2020-09-18 22:12:15 622

原创 指标管理系统设计

文章目录什么是指标指标系统建设前的状况指标建设的宏观步骤基于业务目的梳理指标体系基于系统支撑录入和管理指标管理所在的数仓位置指标管理系统产品模块设计指标定义基础指标复合指标指标查询指标下线对外接口指标权限报表配置化指标管理系统技术实现指标加工逻辑指标输出设计在dws中以大宽表的形式存放以统一的指标表存放所有的指标定义整体脑图参考资料什么是指标数据团队出具的一个统计报表字段即为指标。比如最近七天的订单量,一个促销活动的购买转化率等等。一个指标具体到计算实施,主要有以下几部分组成指标加工逻辑,比如co

2020-09-09 18:55:37 3392

原创 The Data Warehouse Toolkit 阅读笔记

前言这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经什么是星型模型以一个业务事实为主表。比如一笔订单就是一个业务事实。订单有商品的SKU信息,销售市场信息,日期信息 ,这些基本属性,叫做维度。雪花一个产品维度,本身还有分类、包装等信息,也独立做成表,围绕在事实表身边,就像一片雪花。为什么要用星型模型OLTP针对的是线上事务,写多的场景,所以粒度要细。数仓模型的应用场景是数据分析,涉及大量查询,所以要少关联,多整合降低业务理解难度和

2020-09-03 21:48:53 563

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除