自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Zookeeper理论篇(三)

选举机制(非常重要)1、半数机制:集群中半数以上机器存活,集群可用,所以zookeeper适合装在奇数台机器上。2、zookeeper虽然在配置文件中并没有指定master和salve。但是zookeeper工作时,是又一个节点为leader没其他则为follower,leader是通过内部选举机制临时产生的3、以一个简单的例子来说明整个选举机制。假如有五台服务器组成的zookeeper集...

2019-03-04 16:49:16 205 1

原创 Zookeeper理论篇(二)

配置参数解读:zoo.cfg 文件中参数含义1)、tickTime:通信心跳数,Zookeeper服务器心跳时间,单位毫秒。Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。它用于心跳机制,并且设置最小的session超时时间为两倍心跳时间(session的最小超时时间是2*tickTime)...

2019-02-25 14:03:55 157

原创 Zookeeper理论篇(一)

Zookeeper是一个开源的公布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式的角度来理解,是一个基于观察者模式设计的分布式服务管理框架,他负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据状态发生改变,Zookeeper就将负责同志已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现急群中类似Master/Slave管理模式Zo...

2019-02-19 13:16:17 149

原创 DataNode的工作机制

1)、一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验以及时间戳2)、DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息3)、心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另外一台机器,或删除某个数据块。如果超过10...

2019-01-21 13:23:08 258

转载 NameNode的工作机制

1 第一阶段: namenode 启动 1)第一次启动 namenode 格式化后, 创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 2) 客户端对元数据进行增删改的请求。 3) namenode 记录操作日志,更新滚动日志。 4) namenode 在内存中对数据进行增删改查。2 第二阶段: Secondary NameNode ...

2019-01-16 11:18:14 155

原创 HDFS读数据流程(下载文件)

1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。4)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。...

2019-01-14 13:21:53 361

原创 网络拓扑与机架感知

网络拓扑:在海量数据处理中,其主要限制因素是节点之间数据的传输速率—带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准节点距离:两个节点到达最近的共同祖先的距离总和机架感知官方ip地址:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/RackAwareness.html在低版本Ha...

2019-01-11 16:25:18 454

原创 HDFS架构概述(二)

因为在复习的时候发现有很多的东西时没有写到博客当中的,所以在这里就补充一下希望大家多提出一些意见,谢谢大家HDFS的局限性1)低延时数据访问,在用户交互性的应用中,应用需要在ms或者几个s的时间内得到回应。由于HDFS未高吞吐率做了设计,也因此牺牲了快速响应,对于低延时的用用,可以考虑使用HBase或者Cassandra2)大量的小文件标准的HDFS数据块的大小是64M一个,在2.x的版...

2019-01-09 13:12:33 277

原创 HDFS的写数据流程(上传文件)

元旦回来又废了,惰性又回来了,今天学习的时候发现前几天学的东西居然忘记了,这可不妙,赶紧复习一下,写个博客记录一下。言归正传,今天说一下HDFS的写数据流程(上传文件),如图所示:1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)...

2019-01-07 14:29:00 395

原创 HDFS命令行操作

1、基本语法bin/hadoop fs 具体命令2、参数大全bin/hadoop fs[-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OW...

2019-01-02 20:45:25 203

原创 HDFS架构概述(一)

Evernote Export HDFS架构概述(一)作者:[email protected]、概念      HDFS,它是一个文件系统(window电脑磁盘是NTFS),用于存储文件,通过目录树来定位,其次它是分布式的,由很多服务器联合起来实现其功能,由很多服务器联合起来实现其功能   

2018-12-27 13:32:41 148

原创 搭建完全分布式

本人配置完全分布式的环境是 CentOS7+hadoop2.7.2+jdk1.71、准备3台客户机(关闭防火墙、静态ip、主机名称)1)、为什么关闭防火墙集群都是内网搭建的,对外还有一个服务器,那个服务器有防火墙,由它来访问内网集群,如果内网内开启防火墙,内网集群通讯会出现很多问题2、安装jdk和hadoop上一篇博客已经介绍了jdk、hadoop的安装,我们现在只在一台虚拟机尚安装了j...

2018-12-24 09:47:56 227

原创 Linux安装jdk与hadoop

安装jdk和hadoop1)、查询是否安装java软件(已安装jdk)[root@jianghong100 ~]# java -versionjava version “1.7.0_79”Java™ SE Runtime Environment (build 1.7.0_79-b15)Java HotSpot™ 64-Bit Server VM (build 24.79-b02, mix...

2018-12-20 09:31:43 458

原创 Hadoop的优势及组成

Evernote Export Hadoop的优势及组成作者:[email protected]的优势1、高可靠性,因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分部处理2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3、高效性:在MapReduce的思想下,H...

2018-12-17 09:16:18 489

原创 开始写博客啦!!!

Evernote Export 开始写博客啦!!!作者:姜晓弘        本人android小菜鸟一枚,已经从事android开发一年半了,以前从未想过写博客,只觉得写博客是一个枯燥无聊的事情,更是因为本人惰性比较大,工作一年半感觉自己什么都不会,十足的浪费时间。 &nb...

2018-12-14 10:46:34 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除