自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

后来X大数据

微信搜:后 来 X 大 数 据

  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?

大家好,我是后来,周末理个发,赶脚人都精神了不少,哈哈。因为上一篇文章中提到我在数仓的ods层因为使用的是STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'存储模式,但是遇到了count(*) 统计结果与select * 不一样的情况,所以我不得不开始详细了解一下文件的

2020-09-22 13:33:35 3779 2

原创 Hive环境调优总结大全,hive3大执行引擎区别在哪?

最近在做公司的数仓,遇到几个问题,希望大家可以不吝赐教:1、hive 中count(*) 结果不准确。场景:hive 中建表,stored as parquettblproperties ("parquet.compression"="lzo");从ods层导入数据,通过可视化工具连接hive发现该表数据没有空行,但count(*) 结果不准确,比实际值偏多。同时对该份数据进行简单查询select order_id from dwd_fact_order_info where dt = "20

2020-09-15 11:44:31 1172

原创 Flink的窗口、时间语义,Watermark机制,多代码案例详解,Flink学习入门(三)

通过前2篇的学习,已经基本掌握了flink的基本使用,但是关于flink真正内核的东西还没开始说,那先简单介绍一下,flink的核心亮点:窗口时间语义精准一次性那我们今天先把之前的内容串一下我们通过第一篇的学习了解到了flink的wordCount,以及在第二篇的API 中,我们也只是获取到数据,进行简单的转换,就直接把数据输出。但是我们在之前都是以事件为驱动,等于说是来了一条数据,我就处理一次,但是现在遇到的问题是:我们可以简单的把wordCount的需求比做公司的订单金额,也就是订单金

2020-06-29 17:09:26 396

原创 Flink流处理API代码详解,含多种Source、Transform、Sink案例,Flink学习入门(二)

关于flink的入门在上一篇已经讲过了,写的不是一步一步那么详细,所以入门的小伙伴看着有些吃力,

2020-06-16 10:28:20 1125

原创 终于懂了TCP协议为什么是可靠的,计算机基础(六)之运输层

不知不觉我的计算机网络专栏已经写了5篇了,今天到运输层了。通过学习计算机网络,开始逐渐理解了两台主机之间是如何进行通信的,但是还有一个问题困扰着我,我们为啥非要下载一个微信才能聊天,难道不能你用微信,我不用么,也就是微信上发的消息为啥不会出现在QQ上呢?带着这个疑问我们来看今天的内容。来划重点了:通信实质上是进程之间的通信端口和套接字的意义用户数据报协议UDP传输控制协议TCP三次握手四次挥手还是老样子,这张图再来看一遍,现在应该记住了吧,毕竟在我的文章里已经出现了5次了。1、运输

2020-06-08 15:35:06 935

原创 通过WordCount来入门Flink,读懂Flink基础架构,Flink学习入门(一)

最近公司的越来越多的业务要用到flink,我也正好把知识点再复习下,做到学以致用,哈哈,而且昨天看到flink1.11版本都开始支持hive流处理了,还是比较兴奋的。所以我再写个flink学习专栏。写完基本知识,也会夹杂着工作实例,算是给自己做个笔记。希望某篇文章能对你有所帮助。Flink初体验...

2020-06-06 15:49:15 339

原创 警察叔叔顺着网线是怎么找到你的?计算机网络(四)之网络层未完待续

自律真的是太重要了,我才坚持了不到半个月就犯起了懒,一边抱怨账号不好运营,但反过来想自己也没付出太多的努力。接下来开始继续写。之前我们讲了物理层和数据链路层,今天就到了网络层。再来串一下这几层的关系。我们之前讲的物理层和数据链路层,其实再TCP/IP协议的体系结构中属于一层,网络接口层,我们为了更容易理解把它拆分开了。那么今天我们开始讲网络层,在开始讲之前,还是先引出一个问题:我们有一句玩笑话,警察叔叔,这不是之前有同学在宿舍吃火锅还得瑟发微博,还没吃完消防员就出现了。那么问题来了,警察叔叔顺着

2020-05-27 17:48:14 14778 32

原创 通过WordCount来理解Flink的状态与容错,checkpoint如何恢复?Flink学习入门(四)

在之前的flink文章中,有计算过wordCount案例,现提出假设:该word流在输入过程中项目挂掉了,如果重启项目还能继续无缝衔接吗?同时如何做到wordCount的单词累加呢?这设计到2个重要的知识点:有状态计算checkpoint 容错有状态计算可以说是Flink重要的特性之一先来看代码:在这里插入代码片...

2020-11-24 18:21:19 698

原创 源码分析:Hive on Spark时,读取Hive表后会有多少个Task?

大家好,我是后来。Hive 作为大数据中数仓的重要框架,从速度贼慢的MR引擎,再到Tez,到如今的Spark,速度一直在提升。虽然一条Hive SQL会转换成Spark的几个job,以及会生成多少Stage,我们还不好判断,但是Spark如何读取Hive表后会有多少个Task呢?我们知道Spark的Task数由partitions决定,那么又如何决定呢?Hive在读取不可切片文件的时候只能由单个节点来读入所有数据,即使自己手动设置分区都不行如果Hive表的每个分区的文件都是几M的可切片的小文件,那

2020-09-24 13:49:33 1376

原创 Hive SQL调优,distict去重效率竟然比group by高?union该如何优化?

关于Hive SQL优化这几天因为做数仓,写完SQL后总觉得自己写的SQL又臭又长,是不是应该好好优化下,于是还专门为此重新2本书学会了2点1、SQL优化?到底在优化什么?关于Hive SQL优化,大部分来说都是为了性能更优1、先整理需求难道group by就一定比distinct高效么?几乎所有的文档都这么写,尽量避开distinct去重,但事实真如此吗?让我们开看看2、如何看懂SQL执行计划count()我们都知道,如果直接select * from a;这个时候并不会走MR,那

2020-09-18 09:22:42 1717

原创 glibc 2.17升级2.28,gcc 4.8.5升级9.2.0,GNU Make 3.82 升级到4.2.1,安装bison

因为要在centos7 安装mysql8,在安装的时候遇到了这个鬼问题,头疼[root@bigdata101 mysql-lib]# rpm -ivh mysql-community-client-8.0.19-1.el8.x86_64.rpmwarning: mysql-community-client-8.0.19-1.el8.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYerror: Failed dependen

2020-07-03 10:09:42 11734 11

原创 如何在CentOS 8 上安装PHP 7.2 / 7.3 / 7.4

大家好,我是后来,我会分享我在学习和工作中遇到的点滴,希望有机会我的某篇文章能够对你有所帮助,所有的文章都会在公众号首发,欢迎大家关注我的公众号" 后来X大数据 ",感谢你的支持与认可。我是为了在Centos8上部署zabbix服务才被迫安装PHP的,但是尴尬的是我先安装了PHP7.4后,在web页面报错不能正常展示图形。在zabbix web页面顶部显示如下错误代码:Trying to access array offset on value of type bool [charts.php:8.

2020-06-28 11:37:54 3233

原创 拉了300M的网,下载速度为啥还是这么慢?计算机基础(五)之网络层完结

上一篇文章,我写到了划分子网和构造超网,给大家从原理层面说了一下,如何通过一个虚拟的IP地址找到对应的主机。其实核心知识就是地址解析协议ARP,以及IP地址不同的划分规则对应的如何转发分组,当然也同时要理解为什么IP地址是虚拟的。这其实就是上一篇文章的核心内容,回看:那么今天继续把网络层的知识讲完,那么今天的知识更多的是属于了解,但是却和生活息息相关网际控制报文协议ICMP路由选择协议,重新认识你家的路由器IPv6...

2020-05-31 21:38:02 2650

原创 520发送的”我爱你“在传输时咋没变成”我恨你“?计算机网络(三)之数据链路层

最近关于计算机网络的文章,可能是比较长,而且术语比较多,几个朋友都和我说看不懂。个人想法,也说给自己听:我们每天在碎片化时间阅读的公众号上文章,除了获取资讯外,关于知识类的文章,更多的是在消耗时间,并不能通过一篇文章就掌握这个知识点,所以如果我们能在这些文章中找到一些自己感兴趣的文章,并愿意付出时间去研究,才有可能真正的理解和掌握作者花了若干时间写的一篇文章。所以,如果有想学习或了解计算机网络,那可以认真看一看我写的文章,我觉得已经过滤了很多难点。接下来我们进入正题,数据链路层是干啥的?关于数据链

2020-05-22 11:55:45 1362 1

原创 我发的文章变成了0和1,那0和1是怎么发送给你的?计算机网络(二)物理层

昨天我们在文章中最后把抽象的问题转化为TCP/IP协议这4层都干了什么,那么为了更好的理解,我们结合OSI的7层模型,组合成5层的理论来讲解。首先说一下今天的重点:(1)物理层的任务。(2)几种常用的信道复用技术。(3)几种常用的宽带接入技术,主要是ADSL和FTIx。物理层的任务我们能看到,最下面的这层就是物理层,这层主要考虑的是怎么才能在连接各种计算机的传输媒体上传输数据比特流,而具体的传输媒体是什么并不是物理层关心的。这样吧,为了让大家更容易的理解,我先打个比喻比如我要给你寄一本书,

2020-05-19 15:20:29 5040 6

原创 我发的文章是怎么到你手机上的?计算机网络基础(一)

大家好,我是后来,我会分享我在学习和工作中遇到的点滴,希望有机会我的某篇文章能够对你有所帮助,所有的文章都会在公众号首发,欢迎大家关注我的公众号" 后来X大数据 ",感谢你的支持与认可。我们都说这是一个互联网、信息化的时代,但问题来了,什么是互联网,真的了解互联网吗?在大学上课没好好学习,现在对这部分的内容还略有好奇与疑问,所以我准备认真研读计算机网络这本书,我把自己这个过程中的所思所想记录下来,便于查看,也希望对你学习计算机网络有所帮助。首先来举个例子吧,我今天的文章你能看到,这本身就借助了互联.

2020-05-16 09:59:07 1319

原创 zabbix部署监控集群,自定义监控Flume(图片多,步骤详细)

1、Zabbix的介绍1.1 Zabbix是干啥的?Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的框架。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件短信或者是电话的告警。还可以自定义开发基于公众号提醒等,这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。和zabbix类似的还有小米的开源监控框架open-falcon等,但各有千秋吧,毕竟哪个技术也不是万能的。今天我来复盘一下我在测试集群部署Zabbix的全过程。首先说

2020-05-13 15:09:13 1250 3

原创 hive on tez执行任务报错,did not succeed due to VERTEX_FAILURE

hive on tez,在执行任务的时候报错,这种情况原因是container资源被抢占或者是资源不足。而task最大的失败次数默认是4.Status: FailedVertex failed, vertexName=Map 1, vertexId=vertex_1589254309642_0001_4_00, diagnostics=[Task failed, taskId=task_1589254309642_0001_4_00_000000, diagnostics=[TaskAttempt 0

2020-05-12 11:59:45 11814

原创 Hive3.1.2+大数据引擎Tez0.9.2安装部署到使用测试(踩坑详情)

安装tez的过程可谓是坑有点多,编译还是相对简单的。现在复盘一下,以下是我的版本号框架版本号Hadoop3.1.3Hive3.1.2Tez0.10.1能看到这篇文章的,说明各位也能知道tez是干啥的,这里就不介绍了,直接开始安装我们可以在官网看到,Hadoop3.X版本要使用Tez引擎是需要自己编译的(对于0.8.3和更高版本的Tez,Tez需要Apache Hadoop的版本为2.6.0或更高。对于0.9.0及更高版本的Tez,Tez需要Apache Had

2020-05-10 14:28:44 4461 9

原创 Apache Hadoop3.1.3编译安装部署lzo压缩指南(照做就可以,别落一步)

安装maven+git(配置编译环境)maven(安装maven,配置环境变量,修改sitting.xml加阿里云镜像)tar -zxvf apache-maven-3.6.1-bin.tar.gzsudo vim /etc/profile.d/maven.sh(配置环境变量)export MAVEN_HOME=/opt/software/apache-maven-3.6.1export PATH=$PATH:$MAVEN_HOME/binMAVEN_OPTS=-Xmx2048mexpor

2020-05-10 14:21:03 1961

原创 大数据权限管理工具Ranger 2.0.0的安装部署到使用测试(踩坑详情)

ranger的安装与部署及使用一、Ranger的介绍二、Ranger的架构三、Ranger的安装与部署1、安装git(务必安装)2、下载Ranger安装包3、下载maven4、开始编译5、安装Ranger控制台:Ranger-admin6、安装ranger插件(安装ranger-hdfs)7、测试是否可用(HDFS服务测试)致谢这篇文章写之前,要先感谢博客园的一位博主,能一直帮助我在安装rang...

2020-04-24 17:14:22 6364 8

原创 一篇文章读懂HBase,从安装/架构/API全部剖析(图文并茂)--未完待续

又是一周,这次给自己复习一下Hbase,算是写的比较详细的,当然比较晚了,还没写完,这两天一定抽时间把它补完。接下来进入正题:1、Hbase的介绍之前我们熟悉的数据库,比如Mysql,属于是关系型数据库,但是它的单机单表的数据量还是有限,在700—1000万条(网查的),但是在大数据框架中,这点数据量还是捉襟见肘,所以采用NOSQL数据库关系型数据库:例如mysql、 Oracle非关系...

2020-03-02 00:18:56 269

原创 Spark的两种核心Shuffle(HashShuffle与SortShuffle)的工作流程与源码分析(手把手看源码)

写在前面的话:本篇博客为原创,认真阅读需要比对spark 2.1.1的源码,预计阅读耗时30分钟,如果大家发现有问题或者是不懂的,欢迎讨论欢迎关注公众号:后来Xspark 2.1.1的源码包(有需要自取):关注公众号【后来X】,回复spark源码在spark中说到shuffle,大家应该不陌生,因为有shuffle所以才把stage分为ShuffleMapStage:前面的所有sta...

2020-02-23 17:01:38 1847

原创 大数据Spark YarnCluster模式源码分析——提交任务2+切分任务(手把手看源码)

写在前面的话:本篇博客为原创,认真阅读需要比对spark 2.1.1的源码,预计阅读耗时30分钟,如果大家发现有问题或者是不懂的,欢迎讨论欢迎关注公众号:后来Xspark 2.1.1的源码包(有需要自取):关注公众号【后来X】,回复spark源码上一篇博文,我们看了在Yarn Cluster模式下,从Spark-submit提交任务开始,到最后启动了ExecutorBackend线程,也...

2020-02-17 00:26:31 363

原创 大数据Spark YarnCluster模式源码分析——提交任务(图文并茂)

哈哈我们来分析分析spark的YarnCluster模式下的源码,先从任务的提交命令开始我们在集群上提交任务的命令是:bin/spark-submit –class org.apache.spark.examples.SparkPi –master yarn –deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.1....

2020-02-16 17:07:13 502

Ranger安装部署使用到的所有安装包

Ranger安装部署使用到的所有安装包,包括Ranger2.0.0的tar包,mysql 5.7.25的所有rpm安装包,mysql-java的连接jar包,3.6.1的jar包。

2020-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除