自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

victorzzzz的专栏

纸上得来终觉浅 绝知此事要躬行 https://github.com/vicotorz

  • 博客(108)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hadoop权威指南:知识梳理(二)

第12章 关于AvroApache Avro 独立于编程语言的数据序列化系统,支持压缩、可切分意在解决Hadoop中Writable类型的不足:缺乏语言的可移植性Avro模式通常用json编写Avro有丰富的模式解析能力,读数据所用的模式不必与写数据所用的模式相同Avro定义了少量的基本数据类型,通过编写模式的方式,可以被用于构建应用特定的数据结构基本类型:.........

2019-09-16 23:21:50 478

原创 Hadoop权威指南:知识梳理(一)

第一章:初识HadoopMapReduce三大设计目标:为只需要短短几分钟或几个小时就可以完成的作业提供服务 运行于同一个内部有高速网络连接的数据中心内 数据中心内的计算器都是可靠的、专门的硬件提供Hadoop支持的公司:Cloudera、Hortonworks、MapR等MapReduce: input --> map --> shuffle --> r.........

2019-09-16 22:35:59 1078

原创 【Shell】grep sed awk

grep [options] PATTERN-i:忽略大小写 --color:匹配到的字符用其他颜色显示出来 -v:显示没有匹配到的行 -o:只显示被模式匹配到的字符串,不显示行 -A n:显示该行及其后n行 -B n:显示该行及其前n行 -C n:显示该行及其前后各n行sed 用来把文档或字符串里的文字经过一系列编辑命令转换为另一种格式输出sed[-nefr......

2019-04-09 23:04:27 209

原创 JVM学习笔记

Java 优点:1. 摆脱了硬件的束缚,一次编写,到处运行2. 相对安全的内存和访问机制3. 实现了热点代码检测和运行时编译及优化4. 完善的应用程序结构Clojure,JRuby,Groovy运行于Java虚拟机上的语言及相关程序都属于Java技术体系一员并行处理用Clojure,展示层用JRuby,中间层则用JavaJDK(Java程序设计语言 / Java虚........................

2019-02-14 22:44:33 594

原创 Scala学习梳理

第1章 概述Scala是一个编译型的静态类型语言Scala REPL:Read(读)、Evaluate(执行)、Print(打印)、Loop(循环)第2章 处理数据:字面量、值、变量和类型Scala编译器将从赋值判断这个值的类型,这个过程称为类型推导命名:Scala中的名字可以使用字母、数字和一些特殊的操作符字符Scala不准许从高等级类型转换成低等级类...

2018-10-21 15:46:02 670

原创 【Hive】《Hive编程指南》梳理

转载请注明出处第1章 基础知识Hive不支持事务(标注:低版本不支持,高版本ACID支持)Hive不支持OLTP(联机事务处理)所需要的关键功能,而更接近成为一个OLAP(联机分析技术)工具。MapReduce是一种计算模型,该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。Hive的优点:Hive不仅提供了一个熟悉SQL的用户所熟悉的...

2018-10-09 23:49:59 2819 2

原创 Linux的suid,sgid,sticky

作用范围及功能:SUID:作用于文件(二进制程序) 此用户将继承此程序的所有者权限SGID:作用于文件(二进制程序)和目录 对于文件: 此用户将继承此程序的所属组权限. 对于目录: 此文件夹下所有用户新建文件都自动继承此目录的用户组.Sticky:作用于目录 设定后,目录中的用户只能删...

2018-09-29 09:35:36 464

原创 【问题解决】Maven密码加密

普通的maven部署方式是把maven私服的账号密码以明文的方式配置在settings.xml文件中。我们需要打开~/.m2/settings-security.xml这个文件(如果没有就手动创建)这种方式的配置很容易被别人看到从而泄漏了个人信息。2) 获取server加密密码。1) 获取master密码。

2023-11-21 14:48:31 804

原创 JVM工具使用(jstack + jstat + jmap)

JVM 常见定位工具汇总

2023-10-23 15:55:52 442 1

原创 【错误处理】远程连接ip报错:RSA host key for x.x.x.x has changed and you have requested strict checking

原因目标服务器重装以后,key发生变化。ssh-keygen -R IP或域名。,对可key进行重新添加即可。

2023-08-24 15:38:10 410

原创 【知识梳理】Go语言核心编程

基础知识Go语言就是为了解决编程语言对并发支持不友好、编译速度慢、编程复杂这三个问题而诞生的语言特性对比:p4package mainimport "fmt"func main() { fmt.Printf("Hello world")}Go源代码特性解读:源代码以.go为后缀 源程序默认为UTF-8编码 标识符区分大小写 语句结尾的分号...

2023-02-09 21:00:00 691

原创 基于MirrorMaker与火山引擎的Kafka数据同步

Kafka MirrorMaker是Kafka官网提供的跨数据中心流数据同步方案,其实现原理是通过从Source集群消费消息,然后将消息生产到Target集群从而完成数据迁移操作。用户只需要通过简单的consumer配置和producer配置,启动MirrorMaker,即可实现实时数据同步。本文章主要聚焦跑通Kafka MirrorMaker数据迁移流程。实验中的Source Kafka版本为2.12,基于本地机器搭建。Sink集群为火山引擎Kafka中间件。

2023-01-30 14:45:00 457

原创 【解决方案】数据随机生成脚本

因需要生成数据,验证数据库相关问题,且此需求可能以后也会经常遇到,故将代码粘贴如下。在基础的云ECS,通过python3执行即可。

2022-11-23 15:03:05 300

原创 【错误排查】使用工具连接Docker-mysql报错“Public Key Retrieval is not allowed”

如果用户使用了 sha256_password 认证,密码在传输过程中必须使用 TLS 协议保护,但是如果 RSA 公钥不可用,可以使用服务器提供的公钥;可以在连接中通过 ServerRSAPublicKeyFile 指定服务器的 RSA 公钥,或者AllowPublicKeyRetrieval=True参数以允许客户端从服务器获取公钥;但是需要注意的是 AllowPublicKeyRetrieval=True可能会导致恶意的代理通过中间人攻击(MITM)获取到明文密码,所以默认是关闭的,必须显式开启。

2022-10-18 15:18:42 779

原创 《ClickHouse原理解析与应用实践》知识梳理

每个列字段的数据会被存储在对应的[Column].bin文件中,如果一个列字段被Nullable类型修饰后,会额外生成一个[Column].null.bin文件,专门保存它的Null值,意味着读取和写入需要一倍的额外文件操作。INSERT查询最终转换为Block数据块,单个数据块的写入过程具有原子性,每个数据块最多可以写入1048576行数据(由max_insert_block_size参数控制)MergeTree在写入一批数据时,数据总会以数据片段的形式写入磁盘,且数据片段不可修改。.........

2022-07-29 20:59:27 1120

原创 Flink内核与原理(Flink知识梳理二)

Flink技术架构Flink运行架构Flink流批一体的统一:Flink应用的基本套路:DataStream体系:DataStream 转化关系:环境对象:执行环境:运行时环境:RuntimeEnvironment:在Task开始执行时进行初始化,把Task运行相关的信息封装在该对象中SavepointEnvrionment:是Environment 的最小化实例,在状态处理器的API中使用运行时上下文:RuntimeContext 是Function运行时的上下文,封装了Function运行时可能需要的所

2022-07-13 22:47:28 171

原创 定期删除Hdfs文件脚本

#!/bin/bashusage="$0 Usage: xx [days]"if [ ! "$1" ]then echo $usage exit 1finow=$(date +%s)./hadoop fs -ls -r xxxx路径 | while read f; do #取文件串中的日期信息 dir_date=`echo $f | awk '{print $6}'` difference=$(( ( $now - $(date -d "$dir_date" +%s) ...

2021-10-25 10:53:01 242

原创 IDEA中编译maven打包中出现 Perhaps you are running on a JRE rather than a JDK的问题解决

报错信息:排查过程:检查了$JAVA_HOME 路径:发现本地配置的JAVA_HOME路径仅仅为JRE环境,缺少javac等文件。确定为JRE环境导致maven编译不通过问题修正:由于自己电脑配置多个java环境,使用:/usr/libexec/java_home -v 查看机器版本。使用jdk环境的目录替换了./etc/.bash_profile中的$JAVA_HOME配置。如果没有本地没有jdk配置,需要重新安装java环境后指定路径即可...

2021-05-11 18:55:12 291

原创 Linux区分大小写

方法一::set ic (ignore case) 忽略大小写:set noic 不忽略大小写每次查找都会收到影响,退出后失效方法二:/\CWord : 区分大小写的查找/\cword : 不区分大小写的查找仅针对当前查找有效...

2021-03-08 21:07:47 690

原创 【错误处理】Java之替换“\n”符号

在去除字符串中的换行符(\n)的时候,写成str.replace("\\n", "")才能正确执行。str.replace("\n","") ,str.replaceAll("\\n",""),str.replaceAll("\n","")均替换失败参考:  http://www.oschina.net/code/snippet_107039_6026——java去除字符串中的空格、回车、换行符、制表符  http://blog.csdn.net/coolwzjcool/article/.

2020-05-21 18:05:29 3122 1

原创 【Hive】HiveServer & HiveServer2 对比

HiveServer1的限制:用户并发性(不能处理多余一个客户端的并发请求)、LDAP安全性集成、HiveServer使用的Thrift接口导致限制HiveServer2在Hive1.1引入(HIVE-2935),提供更好的并发性、安全性、远程访问HiveServer2 架构基于一个ThriftService和任意数量由驱动程序、编译器和执行器组成的会话。MetaStore也是Hi...

2020-05-07 21:33:20 801

原创 Hive与数据库的区别

HQL支持SQL-92标准,所以与SQL非常相似hive on Spark和SparkSQL的结构类似,只是SQL引擎不同,但是计算引擎都是sparkspark SQL和hive到底什么关系历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark(hive on spark)、sparlSQL都可以进行hive的数据查............

2020-05-07 21:29:10 444

原创 【补坑】Java自动装箱的原因

http://www.imooc.com/wenda/detail/576286

2020-04-18 20:58:12 311

原创 cgroup

cgroups 是Linux内核提供的一种可以限制单个进程或者多个进程所使用资源的机制,可以对 cpu,内存等资源实现精细化的控制比如可以通过cgroup限制特定进程的资源使用,比如使用特定数目的cpu核数和特定大小的内存,如果资源超限的情况下,会被暂停或者杀掉。关系梳理:任务(task): 在cgroup中,任务就是一个进程。 控制组(control group): cgrou...

2020-04-12 19:55:35 335

原创 《Flink原理、实战与性能优化》(Flink知识梳理一)

Stratosphere ---> FlinkSpark基于批处理原理,对流式计算相对较弱(本质上是对Hadoop架构进行了一定的升级和优化)有状态流式计算架构Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架,支持高度容错状态管理,防止状态在计算过程中因为系统异常而丢失。周期性通过分布式快照技术Ch............

2020-04-08 23:29:45 7373

原创 【Hive】Hive窗口函数

窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。聚合函数是将某列中多行的值合并为一行,比如sum、count等。 窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)FIRST_VAL...

2020-04-07 19:47:47 275

原创 《SRE Google运维解密》读书笔记

SRE团队职责:确保服务可以正常运转可用性改进 延迟优化 性能优化 效率优化 变更管理 (渐进式发布) 监控 紧急事务处理 容量规则与管理 (N+2 模式,google--> 15倍)SRE核心处理思想:灾难预演与演习 确保系统按照预想方式应对故障 寻找系统中未预料的弱点 寻找其他提高鲁棒性的方式避免事故发生 从组织架构层面关注 关注...

2020-04-06 21:24:34 949

原创 【错误处理】git-am is in progress

gitpull的时候出现这样的错误。Itlookslikegit-amisinprogress.Cannotrebase.用如下方法解决:rm-rf.git/rebase-apply如果采用的是sourcetree,执行控制台命令中执行上述语句即可。参考:http://www.voidcn.com/article/p-fikodend-bnx.html...

2020-03-18 09:58:59 1070

原创 【知识梳理】Mysql知识梳理

数据库连接池:c3p0 dbcp数据仓库的星型架构,雪花模型:上卷:从当前数据往上回归上层数据 下钻: 从当前数据展开下一层数据数据库范式:第一范式:无重复列 第二范式:1 表必须有主键 2 没有包含在主键的列必须完全依赖主键,而不能只依赖一部分 第三范式:2NF + 不能有传递依赖范式越多,表越多反范式:用空间换取时间,把数据冗余在多个表,避免表之间的............

2020-02-20 09:16:15 78 1

原创 【问题】Maven本地存在jar包,但是编译不过(Could not find artifact...)

原因是因为包含下载未成功的文件(.lastUpdated),远程仓库配置信息(_remote.repositories)每次在更新maven项目的时候,每一个jar包路径下的_remote.repositories文件都会同setting.xml中设置的仓库地址id进行判断,如果没有匹配,会自动更新该jar包的相关文件,如果未联网则会出现jar无法发现的错误,导致即使jar存在,maven项目...

2020-02-14 10:10:01 3620

原创 TopK 问题

问题:海量日志数据,提取出某日访问百度次数最多的那个IP分析:百度作为国内第一大搜索引擎,每天访问它的IP数量巨大,如果想一次性把所有IP数据装进内存处理,则内存容量明显不够,故针对数据太大,内存受限的情况,可以把大文件转化成(取模映射)小文件,从而大而化小,逐个处理。换言之,先映射,而后统计,最后排序。解法:具体分为以下3个步骤1.分而治之/hash映射 首先把这一天访问百度日...

2020-02-10 09:42:50 186 1

原创 【Hive】Hive内核思考--HiveServer2与MetaStore交互

https://imcoder.site/a/detail/HuQSdax;jsessionid=52D29613D30DB508B778A3EC483CD3F7图访问逻辑:metastore服务可以理解为就是thrifht服务,hiveserver2启动的时候实际上是开启ThriftCliService服务客户端去连hive服务的时候是通过jdbc连接hive然后连接metasto...

2020-02-02 12:42:34 719 2

原创 计算机网络知识梳理

IP地址A类私有地址:10.0.0.0/8,范围是:10.0.0.0~10.255.255.255 B类私有地址:172.16.0.0/12,范围是:172.16.0.0~172.31.255.255 C类私有地址:192.168.0.0/16,范围是:192.168.0.0~192.168.255.255网络层与协议应用层(表示层 / 会话层) FTP / SMTP /..................

2020-02-02 12:38:54 347

原创 【Hive】Inspector

ObjectInspector帮助我们研究复杂对象的内部结构,解耦了数据使用和数据格式,从而提高了代码的复用度。一个ObjectInspector实例代表了一个类型的数据在内存中存储的特定类型和方法。一个ObjectInspector对象本身并不包含任何数据,它只是提供对数据的存储类型说明和对数据对象操作的统一管理或者是代理ObjectInspector接口使得Hive不拘...

2020-01-06 21:50:16 225

原创 Guava工具包使用

Guava工具包含了若干被Google的 Java项目广泛依赖 的核心库,例如:集合 [collections] 缓存 [caching] 原生类型支持 [primitives support] 并发库 [concurrency libraries] 通用注解 [common annotations] 字符串处理 [string processing] I/O 等等引用&l...

2020-01-06 21:44:05 913

原创 【问题】Intellij 搜索全局快捷键失效解决办法

在使用Intellij IDEA时,使用ctrl + shift + F 全局搜索时,由于输入法干扰导致失效。更改以下配置即可:

2019-12-13 21:07:45 130

原创 Redis知识梳理

Redis:Remote Dictionary ServiceRedis特点:基于内存,速度快 支持丰富的数据类型 支持事务 可设置过期时间 可持久化数据(异步操作flush到硬盘上保存) value可达1GB 单进程单线程 读写分离: Master用来插入写,Slave用来检索读 受内存限制Redis适用场景:会话缓存(购物车信息) 全页缓存(FPC) ............

2019-12-04 22:32:58 930 1

原创 【Shell】Shell脚本并发与调试

Bash Shell实现并发多进程操作Shell脚本里实现并发操作,需要用到for循环 &后台运行符 wait等待所有子进程结束思路:我们可以通过写一个for循环,控制每次需要批量操作的次数,然后封装一个方法,方法里进行批量操作,并将此方法用&符号放在后台运行,每个循环结束前用wait函数,确保当前批量处理操作全部完成普通脚本#!/bin/bashfor...

2019-11-03 20:27:14 335

原创 vi和vim的区别

vi 和vim 的区别它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面:1. 多级撤消 我们知道在vi里,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2. 易用性 vi只能运行于unix中,而vim不仅可以运行于uni...

2019-11-02 20:14:58 181

原创 【Hive】Hive数据倾斜

数据倾斜:hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案(1)key值发生倾斜,key值包含很多空值或异常值赋一个随机值来分散key,如果不需要也可以过滤掉或不适用该keyselectcasewhenuserid...

2019-10-29 00:09:32 246 3

网上书城javaee版本 jsf+jpa

网上书城javaee版本 jsf+jpa 实现了购物车增删改查等一些

2014-10-23

commons-logging.jar

commons-logging.jar 开发DWR所需要的jar包

2014-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除