自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据记录

微信搜索公众号【大数据老哥】GitHub [https://github.com/lhh2002] 记录从0到1走向架构师之路

  • 博客(171)
  • 资源 (1)
  • 收藏
  • 关注

原创 元旦要来了,考虑好要去哪里旅游了吗?Python爬取最全攻略!

前言         2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连。 转发请求声明。一、实现思路首先我们爬取的网站是一个穷游网站: https://place.qyer.com/我这里为大家编写了2个方式第一个就是获取中国范围内的旅游景点,和省级的旅游景点。我这还使用了词汇分析给大家进行展示。分析页面我要我们要爬取的页面URL

2020-12-27 21:34:59 3319 21

原创 MySQL的存储过程原来还可以这样玩?(还不收藏)

        什么是存储过程,存储过程能干吗?本篇博客给带大家学习下存储过程,并进行实战操作。(建议收藏)一、什么是存储过程?MySQL5.0版本开始支持的存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上.

2020-08-28 22:14:54 9054 64

原创 知乎实时数仓架构演进

         “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面实时数仓 1.0 版本,主题: ETL 逻辑实时化,技术方案:Spark Streaming。实时数仓 2.0 版本,主题:数据分层,指标计算

2021-11-11 20:48:54 1296

原创 ClickHouse深度解析,收藏这一篇就够了~

一、什么是ClickHouse?         ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。二、适用场景志数据行为分析标签画像的分析数据

2021-11-10 21:11:59 8539

原创 Flink企业级优化

前言         最近花了一个星期的时间给大家整理了一份Flink优化从多方面下手。末尾有彩蛋。如果对大家有帮助动动发财的小手来个三连,感谢大家~1、资源配置调优         Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的

2021-11-03 14:53:12 2243 10

翻译 Flink 基本工作原理

         Flink是新的stream计算引擎,用java实现。既可以处理stream data也可以处理batch data,可以同时兼顾Spark以及Spark streaming的功能,与Spark不同的是,Flink本质上只有stream的概念,batch被认为是special stream。Flink在运行中主要有三个组件组成,JobClient,JobManager 和 TaskManager。主要工作原理如

2021-10-14 17:26:07 1824

原创 大数据框架发展史

         这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。       .

2021-10-14 17:24:38 1719

转载 程序员面试 10 大潜规则,千万不要踩坑!

作者:姿势帝https://www.cnblogs.com/newAndHui/p/12451882.html潜规则1:面试的本质不是考试,而是告诉面试官你会做什么很多刚入行的小伙伴特别容易犯的一个错误,不清楚面试官到底想问什么,其实整个面试中面试官并没有想难道你的意思,只是想通过提问的方式来知道你会什么比如:面试官提问在实际项目中你们是怎么样使用缓存的?初入行回答:使用redis,key-value存放但是面试官可能是想知道:一般在业务中缓存什么样的数据,为什么要缓存这些数据,缓存数据如何保证实时性,如果

2021-10-11 21:10:19 1477

原创 大数据环境下的数仓是如何管理元数据的

前言         元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。1、什么是数据仓库的元数据管理?1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。‘’抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数

2021-09-24 14:08:32 1649

转载 Hive从入门到精通,HQL硬核整理四万字,全面总结,附详细解析,赶紧收藏吧!!

一、了解Hive1、Hive的概念及架构         Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 的开发者开发自定义的 mapper

2021-09-13 16:29:53 2419

转载 三大组件HDFS、MapReduce、Yarn框架结构的深入解析式地详细学习【建议收藏!】

我们知道目前Hadoop主要包括有三大组件,分别是:分布存储框架(HDFS)、分布式计算框架(MapReduce)、以及负责计算资源调度管理的平台(Yarn),那么今天我们就来解析式的深入学习了解这三大组件。*

2021-09-09 15:50:21 2427

转载 Kafka与Pulsar的区别在哪?为什么会成为下一代的消息中间件之王?

前言         在本系列的Pulsar和Kafka比较文章中,我将引导您完成我认为重要的几个领域,并且对于人们选择强大,高可用性,高性能的流式消息传递平台至关重要。消息传递模型(Messaging model)是用户在选择流式消息传递系统时应首先考虑的事情。消息传递模型应涵盖以下3个方面:Message consumption(消息消费):如何发送和消费消息Message Acknowledgement(消息确认)

2021-09-09 15:47:58 1672

转载 企业级数据迁移(sqoop建议收藏)

数据导出/迁移的概念         在做数据导出之前,我们看一下已经完成的操作:数据分析阶段将指标统计完成,也将统计完成的指标放到Hive数据表中,并且指标数据存储到HDFS分布式文件存储系统。         指标统计完成之后,我们最终是想将我们的指标数据做成可视化大屏进行展示,Hive中的数据无法、很难直接连接到JavaWeb或者EE技术

2021-09-06 15:03:37 1453

转载 干货分享 | Hive调优小技巧

         Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。         影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。架构优化

2021-08-16 15:51:05 1844 15

原创 学kudu这一篇就够了

前言         最近在招聘要求下突然看到了Apache kudu 于是花了几天时间研究了下,下面简单的给大家介绍下 记得收藏。一、Kudu 介绍1.1、背景介绍         在KUDU之前,大数据主要以两种方式存储;【1】:静态数据        

2021-07-06 10:08:43 2988 143

原创 HBase最新面试题总结

         最近看了好多粉丝的面试题,于是总结出关于HBase相关的面试题,今天分享给大家,认真观看,记得收藏一、讲一下 Hbase 架构Hbase主要包含HMaster/HRegionServer/ZookeeperHRegionServer 负责实际数据的读写. 当访问数据时, 客户端直接与RegionServer通信.HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个

2021-04-18 20:31:41 3550 1

原创 听说你们写毕业设计没有动态数据?Python教你一步完成!

前言         最近又到了写毕业论文的季节了,有好多粉丝朋友私信我说老哥能不能帮我爬点数据让我来写论文,这时正好有位小女生正在打算买只小喵咪,于是老哥在全网搜索于是发现了下面的网站只好动动自己的小手,来完成这个艰巨的任务了,有喜欢爬虫的同学,或有需要爬取数据的同学可以私聊老哥。页面分析         我们通过访问一下地址 :htt

2021-04-18 11:08:22 1663 20

原创 Flink中的异步IO

前言         Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求         Flink在做流数据计算时,很多时候需要与外部系统进行交互(比如数据库、Redis、Hive、HBase等等存储系统)。 往往需要注意系统间

2021-04-06 21:44:31 3732 21

原创 史上最全Spark高级RDD函数操作

前言         本篇文章主要介绍高级RDD操作,重点介绍键值RDD,这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题,如自定义分区,这是你可能最想要使用RDD的原因。使用自定义分区函数,你可以精确控制数据在集群上的分布,并相应的操作单个分区。创建数据集 val myCollection = "WeChat official account big data brother" .split("

2021-03-18 23:32:28 2117 19

原创 Hive常用DDL操作

一、Database1.1 查看数据列表show databases;1.2 使用数据库USE database_name;1.3 新建数据库语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCHEMA 是等价的 [COMMENT database_comment] --数据库注释 [LOCATION hdfs_path] --存储在 HDFS 上的位置 [WITH DBPROPER

2021-03-07 20:25:12 1370

转载 Spark调优秘诀

前言         每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了?1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个

2021-03-02 21:26:36 1430

转载 大厂都在使用的Hive优化

Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此,感谢作业的辛勤付出。《Hadoop 数据仓库实践》一书值得品读。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化等。此处记录下来,仅为学习和加强记忆。...

2021-03-01 17:40:32 1477

转载 都说Kafka牛看完这篇就够了

前言         系统间的耦合高怎么办,我们如何不让一个服务过于庞大,一个好的方式就是依据具体的功能模块拆分服务,降低服务的耦合度,服务间的交互可以通过消息传递数据来实现,除此之外Kafka非常适合在线日志收集等高吞吐场景,kafka有更好的吞吐量,内置分区,副本和故障转移,这有利于处理大规模的消息,所以kafka被各大公司广泛运用于消息队列的构建:消息队列模型-生产者消费者模型Kafka基本概念和架构模型Kafk

2021-02-27 15:21:24 1648

原创 最新Hive的高频面试题新鲜出炉了!

导语最近也是到了准备面试的时候了于是老哥我也自己整理了一些关于Hive的常问的面试题于是跟大家分享下,同时我也会将这些题目同步到GitHub上GitHub还有好多资源如Flink面试题,Spark面试题,程序员必备软件,hive面试题,Hadoop面试题,Docker面试题,简历模板请去下方链接下载 https://github.com/lhh2002/Framework-Of-BigData对你们有帮助记得 star 。希望打算换工作的朋友或找工作的朋友对你们有些帮助,最后预祝大家新的一年升职加薪,好

2021-02-19 22:08:43 1802 12

原创 最新Hadoop的面试题总结

1、集群的最主要瓶颈  磁盘IO2、Hadoop运行模式  单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述  1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。  2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。  3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。  4)Hive:基于Hadoop的一个数据仓库工具

2021-02-09 16:55:50 9614

原创 企业是如何解决HDFS单点问题的?

前言         在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就来聊一聊。解决HDFS单点问题解决方案         解决HDFS点单问题其实可

2021-01-30 18:12:42 1611

原创 你都知道那些Kafka副本机制?

前言         在日常开发过程中使用kafka来实限流削峰作用但是往往kafka会存放多份副本来防止数据丢失,那你知道他的机制是什么样的吗?一、Kafka集群         Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的

2021-01-28 17:41:04 1744

原创 HDFS是如何设计架构的?

前言         Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。一、Hadoop1.0 简介         Hadoop1.0版本刚出来的时候是为了解决两个间题:一是海量数据如何存储的问题,一个是海量数据如何

2021-01-27 23:02:27 1369

原创 企业是如何选择技术栈来做离线数仓

前言         最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个按案例,仅供参考。案例一、小型公司         首先我们要明白一点小型公司人员并不多其次服务器的配置有不是很高,这时如果要做数仓使用到的大数据组价就不可能了,那我们就使用传统数据库来进行讲解。1

2021-01-24 16:28:52 2029

原创 原来Canal也可以做HA!

前言         在做实时数仓时,数据量往往比较大的,如果使用Canal来监听MySQL的状态当Canal 如果是单机就会造成单点问题,这时Canal恰好可以配置HA这样就能解决单点问题,但是依赖于zookeeper。一、Canal HA模式配置1.1 服务器端HA模式配置         canal是支持HA的,其实现机制也是依赖zo

2021-01-23 20:35:30 1558 11

原创 万字带你深入阿里开源的Canal工作原理

前言         上篇文章给大家讲解了如何安装一个Canal,以及讲解了一部分的原理,今天我们就来深度聊一聊Canal的工作流程,以及他是怎么工作的,以及架构师怎样的。...

2021-01-20 16:15:04 1836 46

原创 实时数仓|架构设计与技术选型

前言一、技术选型二、需求分型三、架构设计总结

2021-01-16 23:22:03 2702 55

原创 一文带你快速入门Canal,看这篇就够了!

前言         我们在做实时数仓时数据往往都是保存到数据库中例如MySQL,当有一条数据新增或修改需要马上将数据同步到kafka中或其他的数据库中,这时候我们需要借助阿里开源出来的Canal,来实现我们功能。一、什么是Canal我们看下官网的描述:canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费根据官网的描述我们大约可以理解为Ca

2021-01-12 23:14:11 3439 56

原创 Flink 自定义Avro序列化(Source/Sink)到kafka中

前言         最近一直在研究如果提高kafka中读取效率,之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好,偶然之间接触到了Avro序列化,发现kafka也是支持Avro的方式于是就有了本篇文章。一、Avro提供的技术支持包括以下五个方面:优秀的数据结构;一个紧凑的,快速的,二进制数据格式;一个容器文件,用来存储持久化数据;RPC远程过程调用;集成最简单的动态语言

2021-01-08 22:17:51 4158 36

原创 Hive的调优你都知道那些?

         我们在工作中还是在学习中有都会遇到我们写的SQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解。记得收藏一、Fetch抓取(Hive可以避免进行MapReduce)         Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在

2021-01-07 23:52:27 1836 22

原创 一文教你学会Hive视图和索引

前言         我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。​一、Hive视图1.1 简介         Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELEC

2021-01-06 23:31:20 1952 14

原创 深入讲解拉链表,还怕面试官问?

前言         今天给大家分享一个面试中经常会被问到的拉链表,我在上篇文章中提出来一个需求如果不知道的请去→数仓缓慢变化维深层讲解查看,好,废话不多说我们直接开始。提出的问题会在末尾讲解。一、拉链表介绍(百度百科)         拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优

2021-01-05 23:53:49 6418 23

原创 数仓缓慢变化维深层讲解

前言         维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,如果还不知道什么是事实表和维度表请看→数仓模型设计详细讲解)把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。举例说明      &n

2021-01-04 23:19:23 3157 1

原创 数据仓库分层架构深度讲解

前言         我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。如果你还不了解数仓中的模型可以去看这篇(数仓模型设计详细讲解),编写不易请给个一键三连。一、为什么要分层         分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详

2021-01-03 20:43:49 4667 23

原创 数仓模型设计详细讲解

前言         今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念         维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分

2021-01-03 00:01:59 8661 18

hbase 相关的笔记

欢迎大家来观看

2019-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除