7 张迪

已隐藏 大数据开发工程师

纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz

等级
TA的排名 6w+

【错误处理】git-am is in progress

gitpull的时候出现这样的错误。Itlookslikegit-amisinprogress.Cannotrebase.用如下方法解决:rm-rf.git/rebase-apply如果采用的是sourcetree,执行控制台命令中执行上述语句即可。参考:http://www.voidcn.com/article/p-fikodend-bnx.html...

2020-03-18 09:58:59

【问题】Maven本地存在jar包,但是编译不过(Could not find artifact...)

原因是因为包含下载未成功的文件(.lastUpdated),远程仓库配置信息(_remote.repositories)每次在更新maven项目的时候,每一个jar包路径下的_remote.repositories文件都会同setting.xml中设置的仓库地址id进行判断,如果没有匹配,会自动更新该jar包的相关文件,如果未联网则会出现jar无法发现的错误,导致即使jar存在,maven项目...

2020-02-14 10:10:01

TopK 问题

问题:海量日志数据,提取出某日访问百度次数最多的那个IP分析:百度作为国内第一大搜索引擎,每天访问它的IP数量巨大,如果想一次性把所有IP数据装进内存处理,则内存容量明显不够,故针对数据太大,内存受限的情况,可以把大文件转化成(取模映射)小文件,从而大而化小,逐个处理。换言之,先映射,而后统计,最后排序。解法:具体分为以下3个步骤1.分而治之/hash映射 首先把这一天访问百度日...

2019-11-08 09:08:58

【Hive】Hive内核思考--HiveServer2与MetaStore交互

https://imcoder.site/a/detail/HuQSdax;jsessionid=52D29613D30DB508B778A3EC483CD3F7图访问逻辑:metastore服务可以理解为就是thrifht服务,hiveserver2启动的时候实际上是开启ThriftCliService服务客户端去连hive服务的时候是通过jdbc连接hive然后连接metasto...

2020-02-02 12:42:34

计算机网络知识梳理

IP地址A类私有地址:10.0.0.0/8,范围是:10.0.0.0~10.255.255.255 B类私有地址:172.16.0.0/12,范围是:172.16.0.0~172.31.255.255 C类私有地址:192.168.0.0/16,范围是:192.168.0.0~192.168.255.255网络层与协议应用层(表示层 / 会话层) FTP / SMTP /...

2019-09-12 22:52:38

【Hive】Inspector

ObjectInspector帮助我们研究复杂对象的内部结构,解耦了数据使用和数据格式,从而提高了代码的复用度。一个ObjectInspector实例代表了一个类型的数据在内存中存储的特定类型和方法。一个ObjectInspector对象本身并不包含任何数据,它只是提供对数据的存储类型说明和对数据对象操作的统一管理或者是代理ObjectInspector接口使得Hive不拘...

2020-01-06 21:50:16

Guava工具包使用

Guava工具包含了若干被Google的 Java项目广泛依赖 的核心库,例如:集合 [collections] 缓存 [caching] 原生类型支持 [primitives support] 并发库 [concurrency libraries] 通用注解 [common annotations] 字符串处理 [string processing] I/O 等等引用&l...

2020-01-06 21:44:05

【问题】Intellij 搜索全局快捷键失效解决办法

在使用Intellij IDEA时,使用ctrl + shift + F 全局搜索时,由于输入法干扰导致失效。更改以下配置即可:

2019-12-13 21:07:45

Redis知识梳理

Redis:Remote Dictionary ServiceRedis特点:基于内存,速度快 支持丰富的数据类型 支持事务 可设置过期时间 可持久化数据(异步操作flush到硬盘上保存) value可达1GB 单进程单线程 读写分离: Master用来插入写,Slave用来检索读 受内存限制Redis适用场景:会话缓存(购物车信息) 全页缓存(FPC) ...

2019-07-09 16:09:57

jstack + jmap + MAT

jstack:jstack是java虚拟机自带的一种堆栈跟踪工具:jstack [-l] pid (pid 可以使用jps查看)例:jstack 44076 &>$(date +%H%M)_44076.jstack.log线程状态: NEW,未启动的。不会出现在Dump中 RUNNABLE,在虚拟机内执行的。运行中状态,可能里面还能看到locked字样,...

2019-05-08 15:46:30

【Shell】Shell脚本并发与调试

Bash Shell实现并发多进程操作Shell脚本里实现并发操作,需要用到for循环 &后台运行符 wait等待所有子进程结束思路:我们可以通过写一个for循环,控制每次需要批量操作的次数,然后封装一个方法,方法里进行批量操作,并将此方法用&符号放在后台运行,每个循环结束前用wait函数,确保当前批量处理操作全部完成普通脚本#!/bin/bashfor...

2019-07-03 23:25:43

【Hive】HiveServer & HiveServer2 对比

HiveServer1的限制:用户并发性(不能处理多余一个客户端的并发请求)、LDAP安全性集成、HiveServer使用的Thrift接口导致限制HiveServer2在Hive1.1引入(HIVE-2935),提供更好的并发性、安全性、远程访问HiveServer2 架构基于一个ThriftService和任意数量由驱动程序、编译器和执行器组成的会话。MetaStore也是Hi...

2019-07-02 16:15:16

vi和vim的区别

vi 和vim 的区别它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面。vim的这些优势主要体现在以下几个方面:1. 多级撤消 我们知道在vi里,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2. 易用性 vi只能运行于unix中,而vim不仅可以运行于uni...

2019-10-18 16:07:44

【Hive】Hive数据倾斜

数据倾斜:hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案(1)key值发生倾斜,key值包含很多空值或异常值赋一个随机值来分散key,如果不需要也可以过滤掉或不适用该keyselectcasewhenuserid...

2019-10-23 18:13:41

【知识梳理】《Kafka权威指南》知识梳理

第1章 初识Kafka消息:Kafka数据单元批次:一组消息主题:Kafka通过主题进行分类,由于一个主题包含几个分区,因此无法保证整个主题范围内消息的顺序,但可以保证消息在单个分区内的顺序生产者、消费者:消费者把每个分区最后读取的消息偏移量保存在Zookeeper或kafka上,如果消费者关闭或重启,读取状态不会丢失消费者群组:会有一个或多个消费者共同读取一个主题,群组保证...

2019-10-14 20:30:44

【设计模式】设计模式梳理

工厂模式:简单工厂模式:定义一个工厂类,根据传入的参数不同返回不同的实例,被创建的实例具有共同的父类或接口适用场景:  (1)需要创建的对象较少。  (2)客户端不关心对象的创建过程。工厂方法模式:每一个类型设置一个工厂,生产不同类型针对不同的对象提供不同的工厂。也就是说每个对象都有一个与之对应的工厂。定义一个用于创建对象的接口,让子类决定将哪一个类实例化...

2019-07-12 15:18:22

【Hive】Hive高级聚合(grouping sets、rollup、cube)

Hive高级聚合(0.10开始支持)高级聚合功能相当于group by 加强grouping sets:多个group by 进行union all,在同一个数据集进行多重group by 该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GRO...

2019-09-17 23:11:45

【Lambda】Lambda表达式

基本语法: (parameters) -> expression 或 (parameters) ->{ statements;}String[] atp = {"Rafael Nadal", "Novak Djokovic", "Stanislas Wawrinka", "David Ferrer","Roger Federer", ...

2019-04-23 16:29:58

【Hive】Hive返回码状态含义

返回码意义:code=0 job成功执行code=1 提交job失败 或者 job运行时抛出异常时会返回的异常码code=2 提交job和运行job时没有抛出异常,但是job运行时map阶段或者reduce阶段抛出RuntimeExeception时会抛出的异常, 一般是各operator处理具体每一行数据时出现的Hive异常code=3...

2019-09-16 23:37:50

Hadoop权威指南:知识梳理(二)

第12章 关于AvroApache Avro 独立于编程语言的数据序列化系统,支持压缩、可切分意在解决Hadoop中Writable类型的不足:缺乏语言的可移植性Avro模式通常用json编写Avro有丰富的模式解析能力,读数据所用的模式不必与写数据所用的模式相同Avro定义了少量的基本数据类型,通过编写模式的方式,可以被用于构建应用特定的数据结构基本类型:...

2019-09-12 23:24:02

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    用户完成年度认证,即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。