aydnwba6940-CSDN博客

转载戏说中台 — 大佬玩概念，小弟写接口

“最近阿里的数据中台好像挺火的，咱们也搞个中台吧。”Boss一句话，让大数据部门的Leader陷入了沉思，买了本《大数据之路》看了两天…两天后的夜里，Leader在朋友圈发了公司同事不可见的动态“没有大公司的命，得了大公司的病…”。隔天，Leader在部门内部会议说到：“数据中台的建设，我们最近需要这样几件事：把元数据管理，数据质量，任务调度，监控，自助查询等等这...

2019-09-26 10:21:00 269

转载 Spark比MR快是因为在内存中计算？错！

MapReduce 就像一台又慢又稳的老爷车，虽然距离 MapReduce 面市到现在已经过去了十几年的时间，但它始终没有被淘汰，任由大数据技术日新月异、蓬蓬勃勃、花里胡哨地发展，这个生态圈始终有它的一席之地。不过 Spark 的到来确实给了 MapReduce 不小的冲击，它比 MapReduce 理论上要快两个数量级，所以近几年不断有人讨论 Spark 是否可以完全替代 MapRe...

2019-09-24 09:25:00 654

转载如何比较装X地回答问题 | 面试系列.1

公众号后台比较多同学让我写面试相关的文章，在之前的文章从面试官的角度谈谈大数据面试也聊了很多，但是有同学吐槽说我没有把答案写上去，当时我的心里是拒绝写的，这有啥好写的，又不难，Google一大堆。但是呢，吐槽的人多了我也就妥协了，这次我不仅把答案加上去了，还会加很多的分析和建议。之前也和大家说过，由于市场所需，行业红利，金钱诱惑，朋友下套...等等原因（瞎说的瞎说的），我的面试和被...

2019-08-29 09:56:00 181

转载大数据 SQL Boy 脱坑指南

不可否认的是 SQL 是一个伟大的发明，它让增删改查的操作更加地便捷化，而且 SQL 的学习成本相对其他编程语言来说较低，被逼到会写 SQL 的运营和产品我都见过不少。。。大数据行业跟 SQL 更是有不解之缘，可谓“万物皆可 SQL 化”，从Hive/SparkSQL等最原始的最普及的 SQL 查询引擎，到 Impala/Presto/ClickHouse/Kylin/Phoeni...

2019-08-28 10:06:00 721

转载唐朝的大数据平台 - 大案牍术

周末不务正业一回，写点轻松点的内容，最近在陪老婆追一部挺火的剧《长安十二时辰》，剧情还是挺有意思的，但是有个叫"大案牍术"的东西看得我有点出戏，职业病犯了联想了一堆乱七八糟的东西…剧中有一个统管了大唐三省六部所有档案资料的机构叫靖安司，这俨然就是一个大数据中心，里面有一个把我惊呆了的黑科技--大案牍术，这不就是唐朝的大数据平台吗，虽然知道是杜撰而来，但是这套大数据平台还是挺有模有样的...

2019-07-22 10:01:00 482

转载说说实时流式计算

六年前提起实时流式计算，熟悉的同学会想起Storm，三年前提起，大家应该会想到Spark Streaming，现在再提起那无疑是Flink了。可见开源世界技术的迭代是飞速的，稍不留神就落伍了，所以我们要不停地学习，跟着技术的浪潮上下翻滚，但是你学习的速度也无法总是跟得上技术的更替，所以年纪大了依旧可能被淘汰，前浪总是会拍打到沙滩上，“你有没有这种感觉，好像一生都身不由己”。好...

2019-07-09 09:24:00 189

转载 HBase篇(5)- BloomFilter

【每日五分钟搞定大数据】系列，HBase第五篇。上一篇我们落下了Bloom Filter，这次我们来聊聊这个东西。Bloom Filter 是什么？先简单的介绍下Bloom Filter（布隆过滤器）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有...

2018-11-13 09:34:00 166

转载 HBase篇(4)-你不知道的HFile

【每日五分钟搞定大数据】系列，HBase第四篇这一篇你可以知道，HFile的内部结构？HBase读文件细粒度的过程？HBase随机读写快除了MemStore之外的原因？上一篇中提到了Hbase的数据以HFile的形式存在HDFS，物理存储路径是：NameSpace->Table->Region->CF->HFile这一篇我们来说下这个HFil...

2018-11-08 09:23:00 304

转载 HBase篇(3)-架构详解

【每日五分钟搞定大数据】系列，HBase第三篇聊完场景和数据模型我们来说下HBase的架构，在网上找了张比较清晰的图，我觉得这张图能说明很多问题，那这一篇我们就重点来解析下这张图角色与职责先介绍下上图中的几个角色和Ta们的职责：1.HMaster为Region server分配region;负责Region server的负载均衡;发现失效的Region serv...

2018-11-02 09:19:00 112

转载 HBase篇(2)-数据模型与操作

HBase其实就是一个数据库，无非就是存储和增删改查，那我们先从数据模型说起把这里有一张表，是用关系型数据库的思维画出来的表，这样比较易于理解：概念Table（表格）没啥说的，和关系型数据库一样，由多行组成Row（行）包含一个key和一个或者多个列。行按照RowKey字典序存储在表格中。Column Family（列族）可以理解为一组列的集合，HBase官方建议尽...

2018-10-26 09:09:00 182

转载从面试官的角度谈谈大数据面试

关于传授面试经验的文章太多了，眼花缭乱，我这里就不谈了，点进来想获取几吨面试学习资料的同学，抱歉让你失望了。（我是真的找不到那么多资料...）。所以，今天我们只聊面试官。作为一只老鸟，我的面试经验还算丰富，无论是作为面试者还是面试官。其实这篇对于面试者来说也是有意义的，毕竟知己知彼，百战不殆，知道对方会从哪些方面问问题，从哪些方面考核，才能更好地提前做好准备。首先，我觉得面试官有...

2018-10-22 09:21:00 795

转载 HBase篇(1)-特性与应用场景

【每日五分钟搞定大数据】系列，HBase第一篇结束了Zookeeper篇，接下来我们来说下Google三驾马车之一BigTable的开源实现：HBase，要讲的内容暂定如下：这是第一篇我们先不聊技术实现，只讨论特性和场景hbase的特点千万级高并发PB级存储非结构化存储动态列，稀疏列支持二级索引强一致性，可靠性，扩展性（CP系统，可用性做了一点让步）场...

2018-10-18 09:27:00 249

转载 zookeeper-如何修改源码-《每日五分钟搞定大数据》

本篇文章仅仅是起一个抛砖迎玉的作用，举一个如何修改源码的例子。文章的灵感来自 ZOOKEEPER-2784。提一个问题先之前的文章讲过zxid的设计，我们先复习下：zxid有64位，分成两部分：高32位是Leader的epoch：选举时钟，每次选出新的Leader，epoch累加1低32位是在这轮epoch内的事务id：对于用户的每一次更新操作集群都会累加1。这么设...

2018-10-15 09:14:00 239

转载 zookeeper-监控与优化-《每日五分钟搞定大数据》

本文的命令和配置都是基于zookeeper-3.4.6版本。优化很多时候都是基于监控的，所以把这两个内容写在了一起，慢慢消化。监控简单地说，监控无非就是获取服务的一些指标，再根据实际业务情况给这些指标设定一个合适的阈值，然后进行告警的一个过程。如何获取这些指标？ZooKeeper 提供了四字命令(The Four Letter Words)，用来获取 ZooKeeper 服...

2018-10-11 11:01:00 274

转载 zookeeper-分布式锁的代码实现-【每日五分钟搞定大数据】

本文涉及到几个zookeeper简单的知识点，永久节点、有序节点、watch机制。比较基础，熟悉的就别看了跳过这篇吧每个线程在/locks节点下创建一个临时有序节点test_lock_0000000040获得/locks节点下所有子节点A、B、C，排序获得最小值若当前节点B为最小值则获得锁，执行业务逻辑若当前节点B不是最小值则watch比自己小1的节点A，节点A存在则aw...

2018-10-09 09:18:00 108

转载大数据不就是写SQL吗?

应届生小祖参加了个需求分析会回来后跟我说被产品怼了一句："不就是写SQL吗，要那么久吗"我去，欺负我小弟，这我肯定不能忍呀，于是我写了一篇文章发在了公司的wiki贴出来给大家看看，省略了一些敏感的内容。当然内部版言辞也会温和一点，嘻嘻在哪里写SQL？这个问题高级点的问法是用哪种SQL引擎？SparkSQL、Hive、Phoenix、Drill、Impala、Pres...

2018-10-08 08:54:00 322

转载 zookeeper核心-zab协议-《每日五分钟搞定大数据》

上篇文章《paxos与一致性》说到zab是在paxos的基础上做了重要的改造，解决了一系列的问题，这一篇我们就来说下这个zab。zab协议的全称是ZooKeeper Atomic Broadcast即zookeeper“原子”“广播”协议。它规定了两种模式：崩溃恢复和消息广播恢复模式什么时候进入？当整个服务框架在启动过程中当Leader服务器出现网络中断崩溃退出与重启等异常...

2018-09-30 09:11:00 93

转载记一次yarn导致cpu飙高的异常排查经历

yarn就先不介绍了，这次排坑经历还是有收获的，从日志到堆栈信息再到源码，很有意思，下面听我说问题描述：集群一台NodeManager的cpu负载飙高。进程还在但是看日志已经不再向ResourceManager发送心跳，不断重复下文2的动作。心跳停止一段时间后会重连上RM但是cpu仍然很高，再过一段时间心跳再停，一直循环。NodeManager的日志解析1.NM的loca...

2018-09-29 09:19:00 1023

转载讲一个关于paxos的故事...

先讲一个故事。从前，在国王Leslie Lamport的统治下，有个黑暗的希腊城邦叫paxos。城邦里有3类人，决策者提议者群众虽然这是一个黑暗的城邦但是很民主，按照议会民主制的政治模式制订法律，群众有什么建议和意见都可以写提案交给提议者，提议者会把提案交给决策者来决策，决策者有奇数个，为什么要奇数个？很简单因为决策的方式很无脑，少数服从多数。最后决策者把刚出炉的决策昭告...

2018-09-27 09:05:00 217

转载聊聊Zookeeper应用场景、架构设计、选主机制

Zookeeper作为一个分布式协调系统提供了一项基本服务：分布式锁服务，分布式锁是分布式协调技术实现的核心内容。像配置管理、任务分发、组服务、分布式消息队列、分布式通知/协调等，这些应用实际上都是基于这项基础服务由用户自己摸索出来的。1.Zookeeper在大数据系统中的常见应用zookeeper作为分布式协调系统在大数据领域非常常用，它是一个很好的中心化管理工具。下面举几个常...

2018-09-26 09:09:00 88

转载大数据需要学什么？

注意本文非广告，阅读时间四分钟左右，适合大数据入门级读者阅读大数据需要学习什么？很多人问过我这个问题。每一次回答完都觉得自己讲得太片面了，总是没有一个合适的契机去好好总结这些内容，直到开始写这篇东西。大数据是近五年兴起的行业，发展迅速，很多技术经过这些年的迭代也变得比较成熟了，同时新的东西也不断涌现，想要保持自己竞争力的唯一办法就是不断学习。思维导图下面的是我整理的一张思维...

2018-09-25 09:29:00 789

转载 redis调优的实战经验

本文根据redis的info命令查看redis的内存使用情况以及state状态，来观察redis的运行情况以及需要作出的相应优化。info1.memoryused_memory:13409011624 #used_memory=实际缓存占用的内存+Redis自身运行所占用的内存(如元数据、lua)。 #这个值是由Redis使用内存...

2018-09-22 06:47:00 97

转载 zookeeper-操作与应用场景-《每日五分钟搞定大数据》

Zookeeper作为一个分布式协调系统提供了一项基本服务：分布式锁服务，分布式锁是分布式协调技术实现的核心内容。像配置管理、任务分发、组服务、分布式消息队列、分布式通知/协调等，这些应用实际上都是基于这项基础服务由用户自己摸索出来的。1.Zookeeper在大数据系统中的常见应用zookeeper作为分布式协调系统在大数据领域非常常用，它是一个很好的中心化管理工具。下面举几个...

2018-09-20 09:29:00 60

转载 zookeeper-架构设计与角色分工-《每日五分钟搞定大数据》

本篇文章阅读时间5分钟左右点击看《每日五分钟搞定大数据》完整思维导图 zookeeper作为一个分布式协调系统，很多组件都会依赖它，那么此时它的可用性就非常重要了，那么保证可用性的同时作为分布式系统的它是怎么保证扩展性的？问题很多，读完接下来的内容你会有答案。上图来自zookeeper的官方文档，我解释下这张图的各个角色（observer在上图中可以理解为特殊的fol...

2018-09-19 09:20:00 91

转载【福利】送Scala语言入门视频学习资料

没有套路真的是送！！想要学好大数据，scala语言是必不可少的，spark和kafka等大数据重要组件都是用scala写的，想要彻底搞懂这些组件是如何运作的必须得看源码，而学习scala是看源码的必经之路。学习scala的途径基本都是自学，毕竟据我所知目前大学是没有这一门学科的，为了能更快入门，大叔找了份视频资料给大家。多啰嗦两句，一个好的程序猿的基本素养是学习能力和自驱力。...

2018-09-17 15:20:00 87

转载【福利】送Spark大数据平台视频学习资料

没有套路真的是送！！大家都知道，大数据行业spark很重要，那话我就不多说了，贴心的大叔给你找了份spark的资料。多啰嗦两句，一个好的程序猿的基本素养是学习能力和自驱力。视频给了你们，能不能坚持下来学习，就只能靠自己了，另外大叔每周会不定期更新《每日五分钟搞定大数据》原创系列，感谢关注。注意：资料仅供个人学习使用，不可外传，不可用作任何商业用途，谢谢Spark视频内容：...

2018-09-17 15:19:00 68

转载 HDFS-异常大全-《每日五分钟搞定大数据》

点击看《每日五分钟搞定大数据》完整思维导图以及所有文章目录问题1：Decomminssioning退役datanode（即删除节点）1.配置exclude：<name>dfs.hosts.exclude</name> <value>/data/hadoop/excludes</value> 在/data/hadoop/exc...

2018-09-17 15:03:00 333

转载启程 - 《每日五分钟搞定大数据》

《每日五分钟搞定大数据》原创系列，每周不定期更新。欢迎关注公众号：大叔据想了很久，准备开始写一系列的文章，记录这些年来的所得所想，感觉内容比较多不知从哪里开始，画了个思维导图确定了大的方向，大家都知道大数据的主流技术变化迭代很快，不断会有新的东西加入，所以这张图里内容也会根据情况不断添加。细节的东西我会边写边定，大家也可以给我一些建议，我会根据写的内容实时更新这张图以及下面的...

2018-09-15 11:46:00 139

aydnwba6940的博客