姜晓弘-CSDN博客

原创 Zookeeper理论篇（三）

选举机制（非常重要）1、半数机制：集群中半数以上机器存活，集群可用，所以zookeeper适合装在奇数台机器上。2、zookeeper虽然在配置文件中并没有指定master和salve。但是zookeeper工作时，是又一个节点为leader没其他则为follower，leader是通过内部选举机制临时产生的3、以一个简单的例子来说明整个选举机制。假如有五台服务器组成的zookeeper集...

2019-03-04 16:49:16 205 1

原创 Zookeeper理论篇(二)

配置参数解读：zoo.cfg 文件中参数含义1）、tickTime:通信心跳数，Zookeeper服务器心跳时间，单位毫秒。Zookeeper使用的基本时间，服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个tickTime时间就会发送一个心跳，时间单位为毫秒。它用于心跳机制，并且设置最小的session超时时间为两倍心跳时间(session的最小超时时间是2*tickTime)...

2019-02-25 14:03:55 157

Zookeeper是一个开源的公布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式的角度来理解，是一个基于观察者模式设计的分布式服务管理框架，他负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据状态发生改变，Zookeeper就将负责同志已经在Zookeeper上注册的那些观察者做出相应的反应，从而实现急群中类似Master/Slave管理模式Zo...

2019-02-19 13:16:17 149

原创 DataNode的工作机制

1）、一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验以及时间戳2）、DataNode启动后向namenode注册，通过后，周期性(1小时)的向namenode上报所有的块信息3）、心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另外一台机器，或删除某个数据块。如果超过10...

2019-01-21 13:23:08 258

转载 NameNode的工作机制

1 第一阶段： namenode 启动 1）第一次启动 namenode 格式化后，创建 fsimage 和 edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。 2）客户端对元数据进行增删改的请求。 3） namenode 记录操作日志，更新滚动日志。 4） namenode 在内存中对数据进行增删改查。2 第二阶段： Secondary NameNode ...

2019-01-16 11:18:14 155

原创 HDFS读数据流程(下载文件)

1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。...

2019-01-14 13:21:53 361

原创网络拓扑与机架感知

网络拓扑：在海量数据处理中，其主要限制因素是节点之间数据的传输速率—带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准节点距离：两个节点到达最近的共同祖先的距离总和机架感知官方ip地址：http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/RackAwareness.html在低版本Ha...

2019-01-11 16:25:18 454

原创 HDFS架构概述(二)

因为在复习的时候发现有很多的东西时没有写到博客当中的，所以在这里就补充一下希望大家多提出一些意见，谢谢大家HDFS的局限性1）低延时数据访问，在用户交互性的应用中，应用需要在ms或者几个s的时间内得到回应。由于HDFS未高吞吐率做了设计，也因此牺牲了快速响应，对于低延时的用用，可以考虑使用HBase或者Cassandra2)大量的小文件标准的HDFS数据块的大小是64M一个，在2.x的版...

2019-01-09 13:12:33 277

原创 HDFS的写数据流程(上传文件)

元旦回来又废了，惰性又回来了，今天学习的时候发现前几天学的东西居然忘记了，这可不妙，赶紧复习一下，写个博客记录一下。言归正传，今天说一下HDFS的写数据流程(上传文件)，如图所示：1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。3）客户端请求第一个 block上传到哪几个datanode服务器上。4）...

2019-01-07 14:29:00 395

原创 HDFS命令行操作

1、基本语法bin/hadoop fs 具体命令2、参数大全bin/hadoop fs[-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OW...

2019-01-02 20:45:25 203

原创 HDFS架构概述(一)

Evernote Export HDFS架构概述(一)作者：[email protected]、概念&nbsp; &nbsp; &nbsp; HDFS，它是一个文件系统(window电脑磁盘是NTFS)，用于存储文件，通过目录树来定位，其次它是分布式的，由很多服务器联合起来实现其功能，由很多服务器联合起来实现其功能&nbsp; &nbsp;

2018-12-27 13:32:41 148

原创搭建完全分布式

本人配置完全分布式的环境是 CentOS7+hadoop2.7.2+jdk1.71、准备3台客户机（关闭防火墙、静态ip、主机名称）1）、为什么关闭防火墙集群都是内网搭建的，对外还有一个服务器，那个服务器有防火墙，由它来访问内网集群，如果内网内开启防火墙，内网集群通讯会出现很多问题2、安装jdk和hadoop上一篇博客已经介绍了jdk、hadoop的安装，我们现在只在一台虚拟机尚安装了j...

2018-12-24 09:47:56 227

原创 Linux安装jdk与hadoop

安装jdk和hadoop1）、查询是否安装java软件（已安装jdk）[root@jianghong100 ~]# java -versionjava version “1.7.0_79”Java™ SE Runtime Environment (build 1.7.0_79-b15)Java HotSpot™ 64-Bit Server VM (build 24.79-b02, mix...

2018-12-20 09:31:43 458

原创 Hadoop的优势及组成

Evernote Export Hadoop的优势及组成作者：[email protected]的优势1、高可靠性，因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分部处理2、高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点3、高效性：在MapReduce的思想下，H...

2018-12-17 09:16:18 489

原创开始写博客啦！！！

Evernote Export 开始写博客啦！！！作者：姜晓弘        本人android小菜鸟一枚，已经从事android开发一年半了，以前从未想过写博客，只觉得写博客是一个枯燥无聊的事情，更是因为本人惰性比较大，工作一年半感觉自己什么都不会，十足的浪费时间。 &nb...

2018-12-14 10:46:34 106

weixin_43865522的博客