8 张迪

大数据开发工程师

我要认证

纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz

等级
TA的排名 6w+

【错误处理】Java之替换“\n”符号

在去除字符串中的换行符(\n)的时候,写成str.replace("\\n", "")才能正确执行。str.replace("\n","") ,str.replaceAll("\\n",""),str.replaceAll("\n","")均替换失败参考:  http://www.oschina.net/code/snippet_107039_6026——java去除字符串中的空格、回车、换行符、制表符  http://blog.csdn.net/coolwzjcool/article/.

2020-05-21 18:05:29

【Hive】HiveServer & HiveServer2 对比

HiveServer1的限制:用户并发性(不能处理多余一个客户端的并发请求)、LDAP安全性集成、HiveServer使用的Thrift接口导致限制HiveServer2在Hive1.1引入(HIVE-2935),提供更好的并发性、安全性、远程访问HiveServer2 架构基于一个ThriftService和任意数量由驱动程序、编译器和执行器组成的会话。MetaStore也是Hi...

2019-07-02 16:15:16

Hive与数据库的区别

HQL支持SQL-92标准,所以与SQL非常相似hive on Spark和SparkSQL的结构类似,只是SQL引擎不同,但是计算引擎都是sparkspark SQL和hive到底什么关系历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark(hive on spark)、sparlSQL都可以进行hive的数据查...

2020-05-07 21:29:10

【补坑】Java自动装箱的原因

http://www.imooc.com/wenda/detail/576286

2020-04-18 20:58:12

cgroup

cgroups 是Linux内核提供的一种可以限制单个进程或者多个进程所使用资源的机制,可以对 cpu,内存等资源实现精细化的控制比如可以通过cgroup限制特定进程的资源使用,比如使用特定数目的cpu核数和特定大小的内存,如果资源超限的情况下,会被暂停或者杀掉。关系梳理:任务(task): 在cgroup中,任务就是一个进程。 控制组(control group): cgrou...

2020-04-12 19:55:35

【Hive】Hive窗口函数

窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。聚合函数是将某列中多行的值合并为一行,比如sum、count等。 窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)FIRST_VAL...

2020-04-07 19:47:47

《SRE Google运维解密》读书笔记

SRE团队职责:确保服务可以正常运转可用性改进 延迟优化 性能优化 效率优化 变更管理 (渐进式发布) 监控 紧急事务处理 容量规则与管理 (N+2 模式,google--> 15倍)SRE核心处理思想:灾难预演与演习 确保系统按照预想方式应对故障 寻找系统中未预料的弱点 寻找其他提高鲁棒性的方式避免事故发生 从组织架构层面关注 关注...

2020-04-06 21:24:34

【错误处理】git-am is in progress

gitpull的时候出现这样的错误。Itlookslikegit-amisinprogress.Cannotrebase.用如下方法解决:rm-rf.git/rebase-apply如果采用的是sourcetree,执行控制台命令中执行上述语句即可。参考:http://www.voidcn.com/article/p-fikodend-bnx.html...

2020-03-18 09:58:59

【问题】Maven本地存在jar包,但是编译不过(Could not find artifact...)

原因是因为包含下载未成功的文件(.lastUpdated),远程仓库配置信息(_remote.repositories)每次在更新maven项目的时候,每一个jar包路径下的_remote.repositories文件都会同setting.xml中设置的仓库地址id进行判断,如果没有匹配,会自动更新该jar包的相关文件,如果未联网则会出现jar无法发现的错误,导致即使jar存在,maven项目...

2020-02-14 10:10:01

TopK 问题

问题:海量日志数据,提取出某日访问百度次数最多的那个IP分析:百度作为国内第一大搜索引擎,每天访问它的IP数量巨大,如果想一次性把所有IP数据装进内存处理,则内存容量明显不够,故针对数据太大,内存受限的情况,可以把大文件转化成(取模映射)小文件,从而大而化小,逐个处理。换言之,先映射,而后统计,最后排序。解法:具体分为以下3个步骤1.分而治之/hash映射 首先把这一天访问百度日...

2019-11-08 09:08:58

【Hive】Hive内核思考--HiveServer2与MetaStore交互

https://imcoder.site/a/detail/HuQSdax;jsessionid=52D29613D30DB508B778A3EC483CD3F7图访问逻辑:metastore服务可以理解为就是thrifht服务,hiveserver2启动的时候实际上是开启ThriftCliService服务客户端去连hive服务的时候是通过jdbc连接hive然后连接metasto...

2020-02-02 12:42:34

计算机网络知识梳理

IP地址A类私有地址:10.0.0.0/8,范围是:10.0.0.0~10.255.255.255 B类私有地址:172.16.0.0/12,范围是:172.16.0.0~172.31.255.255 C类私有地址:192.168.0.0/16,范围是:192.168.0.0~192.168.255.255网络层与协议应用层(表示层 / 会话层) FTP / SMTP /...

2019-09-12 22:52:38

【Hive】Inspector

ObjectInspector帮助我们研究复杂对象的内部结构,解耦了数据使用和数据格式,从而提高了代码的复用度。一个ObjectInspector实例代表了一个类型的数据在内存中存储的特定类型和方法。一个ObjectInspector对象本身并不包含任何数据,它只是提供对数据的存储类型说明和对数据对象操作的统一管理或者是代理ObjectInspector接口使得Hive不拘...

2020-01-06 21:50:16

Guava工具包使用

Guava工具包含了若干被Google的 Java项目广泛依赖 的核心库,例如:集合 [collections] 缓存 [caching] 原生类型支持 [primitives support] 并发库 [concurrency libraries] 通用注解 [common annotations] 字符串处理 [string processing] I/O 等等引用&l...

2020-01-06 21:44:05

【问题】Intellij 搜索全局快捷键失效解决办法

在使用Intellij IDEA时,使用ctrl + shift + F 全局搜索时,由于输入法干扰导致失效。更改以下配置即可:

2019-12-13 21:07:45

Redis知识梳理

Redis:Remote Dictionary ServiceRedis特点:基于内存,速度快 支持丰富的数据类型 支持事务 可设置过期时间 可持久化数据(异步操作flush到硬盘上保存) value可达1GB 单进程单线程 读写分离: Master用来插入写,Slave用来检索读 受内存限制Redis适用场景:会话缓存(购物车信息) 全页缓存(FPC) ...

2019-07-09 16:09:57

jstack + jmap + MAT

jstack:jstack是java虚拟机自带的一种堆栈跟踪工具:jstack [-l] pid (pid 可以使用jps查看)例:jstack 44076 &>$(date +%H%M)_44076.jstack.log线程状态: NEW,未启动的。不会出现在Dump中 RUNNABLE,在虚拟机内执行的。运行中状态,可能里面还能看到locked字样,...

2019-05-08 15:46:30

【Shell】Shell脚本并发与调试

Bash Shell实现并发多进程操作Shell脚本里实现并发操作,需要用到for循环 &后台运行符 wait等待所有子进程结束思路:我们可以通过写一个for循环,控制每次需要批量操作的次数,然后封装一个方法,方法里进行批量操作,并将此方法用&符号放在后台运行,每个循环结束前用wait函数,确保当前批量处理操作全部完成普通脚本#!/bin/bashfor...

2019-07-03 23:25:43

vi和vim的区别

vi 和vim 的区别它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面:1. 多级撤消 我们知道在vi里,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2. 易用性 vi只能运行于unix中,而vim不仅可以运行于uni...

2019-10-18 16:07:44

【Hive】Hive数据倾斜

数据倾斜:hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案(1)key值发生倾斜,key值包含很多空值或异常值赋一个随机值来分散key,如果不需要也可以过滤掉或不适用该keyselectcasewhenuserid...

2019-10-23 18:13:41

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    用户完成年度认证,即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。