DimplesDimples.-CSDN博客

原创 Hadoop怎样避免文件被切分？

第一种方法就是增加最小分片大小，将它设置成大于要处理的最大文件大小。把它设置为最大值long.MAX_VALUE即可。第二种方法就是使用FileInputFormat具体子类，并且重写isSplitable()方法把返回值设置为false。...

2020-01-02 10:29:13 472

原创 Flume是什么，有什么作用，flume的三个组件。

Flume是一个分布式、可靠、和高可用的海量日志采集、聚和和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume提供对数据进行简单处理，并写到各种数据接收方(比如文本、HDFS、Hbase等)的能力。 Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agen...

2020-01-02 10:24:10 4715

原创 HA架构中的脑裂，什么是脑裂，怎样预防脑裂？

在HA架构中有一个非常重要的问题，就是需要保证同一时刻只有一个处于Active状态的NameNode,否则就会出现两个NameNode同时修改命名空间的问题，也就是脑裂(split-brain)。脑裂的HDFS集群很有可能造成数据块的丢失，以及向DataNode下发错误指令等异常情况。为了预防脑裂的情况，HDFS提供了三个级别的隔离机制。共享存储隔离：同一时间只允许一个NameNo...

2019-12-31 15:47:25 2009

原创数据库事务的四个特性及含义

数据库事务正确执行的四个基本要素。原子性(Atomicity):整个事务中的所有操作，要么全部完成，要么全部不完成，不可能停滞在中间某个环节。事务在执行过程中发生错误，会被回滚(rollback) 到事务开始前的状态，就像这个事务从来没有执行过一样。一致性(Correspondence):在事务开始之前和事务结束以后，数据库的完成性约束没有被破坏。隔离性(Isolation):隔离状...

2019-12-30 14:09:05 659

原创 MapReduce中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

一个MapReduce作业由Map阶段和Reduce阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce框架本质就是一个Distributed Sort。在Map阶段，Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文件，但最终会合并成一个)，在Reduce阶段，每个ReduceTask会对收到的数据排序，这样数据便按照key...

2019-12-27 10:39:20 2037

原创 Fsimage与EditLog的合并步骤

Fsimage与EditLog的合并步骤由于EditLog不断增长，在NameNode重启时，会造成长时间NameNode处于安全模式，不可用状态，是非常不符合Hadoop的设计初衷。所以要周期性合并EditLog,但是这个工作由NameNode来完成，会占用大量资源，这样就出现了SecondaryNameNode,它可以进行checkpoint的工作。安全模式：HDFS所处的...

2019-12-25 15:27:52 483

原创 HashMap的底层原理

HashMap的底层原理HashMap底层是数组+链表或者是数组+红黑树，当我们向HashMap中put元素的时候，先根据key的hashcode重新计算hash值，根据hash值得到这个元素在数组中的位置(即下标)，如果数组在该位置上已经存放有其他元素了，那么在这个位置上的元素将以链表的形式存放，新加入的放在链头，最先加入的放在尾，如果链表的长度超过8，则将链表转换成红黑树。如果数组该位置...

2019-12-25 15:02:11 168

原创 SpringBoot注解

@RestController：使用此注解的方法表示一个控制器，返回json。原来返回一个json需要@Controller和@RequestBody配合使用。使用@Controller会返回一个html和jsp页面。@Autowired：顾名思义，就是自动装配，其作用是为了消除Java代码里面的getter/setter与bean属性中的property。当然getter看个人需求，如...

2019-03-20 18:34:59 195

原创 Linux上时间同步(超好用)

一、修改时区： # cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime修改为中国的东八区# vi /etc/sysconfig/clockZONE="Asia/Shanghai"UTC=falseARC=false二、配置新的时间日期设定：# date -s 2017/03/06时间设定：...

2018-12-07 12:15:44 632

原创类中存在的几种关系

USES-A：依赖关系，A类会用到B类，这种关系具有偶然性，临时性。但B类的变化会影响A类。这种在代码中的体现为：A类方法中的参数包含了B类。关联关系：A类会用到B类，这是一种强依赖关系，是长期的并非偶然。在代码中的表现为：A类的成员变量中含有B类。HAS-A：聚合关系，拥有关系，是关联关系的一种特例，是整体和部分的关系。比如鸟群和鸟的关系是聚合关系，鸟群中每个部分都是鸟。IS-A：...

2018-12-05 08:23:11 266

翻译 MapReduce的shuffle过程

shuffle和排序MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle。在此，我们将学习shuffle 是如何工作的，因为它有助于我们理解工作机制(如果需要优化MapReduce程序)。shuffle属于不断被优化和改进的代码库的部分。map端 map函数开始产生输出时，并不是简单地将它写到...

2018-12-03 12:24:28 252

原创 Hive命令的执行过程

1.入口/bin/cli.sh调用CliDriver类进行初始化过程>处理-e，-f， -h等信息，如果是-h,打印提示信息，并退出>读取hive的配置文件，设置HiveConf>创建一个控制台，进入交互模式2.在交互方式下，读取每一个输命令行，直到‘；’为止，然后提交给processLine(cmd)方法处理，该方法将输入的流以；分割成多个命令，然后...

2018-12-02 17:28:14 642

原创 JVM垃圾回收器

这里讨论的收集器基于JDK1.7Update 14之后的HotSpot虚拟机，这个虚拟机包含的所有收集器如下图3-5所示：上图展示了7种作用于不同分代的收集器，如果两个收集器之间存在连线，就说明它们可以搭配使用。1.Serial收集器Serial收集器是最基本、发展历史最悠久的收集器。是单线程的收集器。它在进行垃圾收集时，必须暂停其他所有的工作线程，直到它收集完成。Se...

2018-12-02 17:16:22 166

原创通过爬虫增加CSDN访问量

# coding=utf-8import urllib2import cookielibimport randomimport reimport timeuser_agents = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3...

2018-12-02 09:18:32 621

原创剖析HDFS的文件读写

写流程：客户端通过对DistributedFileSystem对象调用create()来新建文件(步骤1)。DistributedFileSystem对namenode创建一个RPC调用，在文件系统的命名空间中新建一个文件，此时该文件中还没有相应的数据块(步骤2)。namenode执行各种不同的检查以确保这个文件不存在以及客户端有新建该文件的权限。如果这些检查均通过，namenode就会为...

2018-11-27 10:39:02 390

原创搭建HBase完全分布式

在搭建zookeeper集群模式基础上搭建的。(点击该蓝色超链接，可以依次找到相关Hadoop以及zookeeper集群的搭建。)1、下载hbase压缩包2、上传到linux中(使用了远程连接软件mobaxterm)。3、解压。$ tar -zxvf hbase-1.3.1-bin.tar.gz 4、配置环境变量。$ vi ~/.bashrc所有的环境变量内容 ...

2018-11-24 09:19:47 282

原创 HBase有什么优点和缺点

HBase:HBase是一个建立在HDFS之上的分布式，提供高可靠性，高性能，列存储，可伸缩，实时读写NoSQL的数据库系统。HBase的优点： (1)大：一个表可以有上十亿行，上百万列。(2)面向列：面向列(簇)的存储和权限控制，列(簇)独立检索。(3)稀疏：对于为空(null)的列并不占用内存空间，因此，表可以设计的非常稀疏。(4)多版本：每个单元中的数据可以有多...

2018-11-22 21:42:01 7769

翻译 Hbase

HBase系统架构

2018-11-22 08:30:39 248

翻译 MapReduce运行机制

作业的提交Job的submit()方法创建一个内部的JobSummiter 实例，并且调用其submitJobInternal()方法(参见步骤1)。提交作业后，waitForCompletion()每秒轮询作业的进度，如果发现自上次报告后有改变，便把进度报告到控制台。作业完成后，如果成功，就显示作业计数器;如果失败，则导致作业失败的错误被记录到控制台。JobSummiter所实现的作业...

2018-11-22 08:28:24 342

原创 java对象的初始化

public class B{ public static B t1 = new B(); public static B t2 = new B(); { System.out.println("构造块"); } static{ System.out.println("静态块"); } public stat...

2018-11-22 08:23:13 206

原创数据库的事务锁

S是共享锁，X是排他锁。如果对一个事物加了X锁，则不能加任何锁。如果对一个事物加了S锁，则只能加S锁不能加X锁。

2018-11-22 08:20:23 243

原创搭建Zookeeper集群模式

是在搭建HA_hadoop(高可用)集群的基础上进行的。1、下载zookeeper3.4.6 ------点击超链接2、上传到集群3、然后解压$ tar -zxvf zookeeper-3.4.6.tar.gz4、创建软连接$ ln -s /home/betty/soft/zookeeper-3.4.6 /home/betty/soft/zoo5、将解压后的...

2018-11-18 21:08:40 252

原创配置Hadoop的HA(高可用)

在搭建完全分布式的基础上配置HA。一、手动HA。1、首先将完全分布式的配置文件备份。复制一份配置文件用来搭建HA。$ cp -r /home/betty/soft/hadoop/etc/cluster_hadoop /home/betty/soft/hadoop/etc/HA_hadoop$ rm hadoop -------删掉之前的软连接。$ ln -s HA_hadoo...

2018-11-18 19:56:47 298

翻译 hdfs中CheckPoint(检查点)

检查点节点NameNode使用两个文件来保留其命名空间：fsimage，它是命名空间和编辑的最新检查点，是自检查点以来命名空间更改的日志（日志）。当NameNode启动时，它会合并fsimage和edits journal以提供文件系统元数据的最新视图。NameNode然后用新的HDFS状态覆盖fsimage并开始一个新的编辑日志。Checkpoint节点定期创建命名空间的检查点。它从活...

2018-11-18 17:09:06 3365

翻译 hdfs中CheckSum

从DataNode获取的数据块可能已损坏。由于存储设备中的故障，网络故障或有缺陷的软件，可能会发生此损坏。HDFS客户端软件对HDFS文件的内容进行校验和检查。当客户端创建HDFS文件时，它会计算文件每个块的校验和，并将这些校验和存储在同一HDFS命名空间中的单独隐藏文件中。当客户端检索文件内容时，它会验证从每个DataNode接收的数据是否与存储在关联校验和文件中的校验和相匹配。如果不是，则客...

2018-11-18 17:04:00 603

原创 Hadoop完全分布式搭建步骤

请在搭建伪分布式的基础上搭建完全分布式1、克隆两台虚拟机(点击蓝色超链接有如何克隆虚拟机)。2、克隆完成之后首先在三台机器上都分别输入 $ ifconfig查看是否有eth0如下：是正确的。【eth0 Link encap:Ethernet HWaddr 00:0C:29:01:E6:92 inet addr:192.168.85.141...

2018-11-18 11:27:04 5606

原创虚拟机配置网络(ip)的几种方式

配置IP有两种方式：自动获取ip和设置静态IP。A、自动获取ip$ sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0ONBOOT=yes---------设置开机自动激活网卡。1、桥接模式:相当于连接到物理机所在的网络中，与物理机的ip处在同一ip段位上，物理机网络的DHCP会自动分配ip给虚拟主机。2、Nat模式:...

2018-11-18 10:11:00 3086

原创如何克隆虚拟机？

1、打开VMware,安装CentOS。2、首先关闭你所要克隆的虚拟机。我要克隆的虚拟机为CentOS_64_dog1这一台。如图显示。3 、如图进行操作。4、 5、6、 7、更改虚拟机名字，以及虚拟机安装位置。8、等待。 9、完成，点击关闭。 ...

2018-11-18 09:09:48 419

原创 Hadoop伪分布式搭建步骤

在安装单节点的基础上进行。-----点击超链接可以知道如何安装单节点。1、开启sudo(作用是可以避免root用户与普通用户来回切换)。-------配置单节点时也可以设置sudo。2、可以修改主机名(看你是否想要修改主机名，如果没有必要，可以不修改）。$ sudo vim /etc/sysconfig/network修改【HOSTNAME=????】3、无密码登陆----使用...

2018-11-17 17:31:23 326

原创 Hadoop单节点搭建步骤

简介：单节点即默认模式。所谓默认模式，就是安装完jdk及hadoop，配置好相应的环境，即本地模式配置完成。所有程序都在单个JVM上执行。使用本地文件系统，而不是分布式文件系统。无需运行任何守护进程（daemon）,hadoop不会启动NameNode、DataNode等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。注意：命令前边有$符号则说明需...

2018-11-17 16:41:20 499

原创如何在VMware下安装CentOS

我使用的是CentOS-6.8-x86_64-bin-DVD1.iso。1、打开VMware。2、点击左上角文件---点击新建虚拟机。3、一般都选择典型，如有特殊需求自行选择，----点击下一步。 4、点击浏览，找到你下载的CentOS文件。下载网址点击这里(超链接) 5、选择Linux操作系统，我的版本是CentOs64位。6、更改虚拟机名称，以及安装Ce...

2018-11-17 11:20:59 269

原创 Hadoop集群中出现的节点有哪些作用？

DFSZKFailoverController---控制故障转移定期对本地的NameNode发起health-check的命令，如果NameNode正确返回，那么这个NameNode被认为是OK的。否则被认为是失效节点。ZK提供了一个简单的机制来保证只有一个NameNode是活动的。如果当前的活动NameNode失效了，那么另一个NameNode将获取ZK中的独占锁，表明自己是活动的节点。...

2018-11-15 12:28:47 4312

翻译 Hadoop副本存放策略

副本存放策略：基于机架感知当复制因子为3时，HDFS的放置策略是在编写器位于datanode上时将一个副本放在本地计算机上，否则放在随机datanode上，另一个副本放在另一个（远程）机架上的节点上，最后一个在同一个远程机架的不同节点上。此策略可以减少机架间写入流量，从而提高写入性能。机架故障的可能性远小于节点故障的可能性; 此策略不会影响数据可靠性和可用性保证。但是，它确实减少了...

2018-11-10 10:38:10 2283

翻译 Hadoop的五大部分(最新版本2018)

Hadoop Common:支持其他Hadoop模块的实用常用程序。Hadoop分布式文件系统(HDFS):一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。Hadoop YARN:作业调度和集群资源管理的框架。Hadoop MapReduce:基于yarn系统，用于并行处理大型数据集。Hadoop OZone：用于Hadoop的对象存储。以上内容来自Spache官网。...

2018-11-10 08:47:37 1523

原创如何设置sudo

1、切换到root用户2、编辑/etc/sudoers3、找到root，复制一次root权限：如图4、然后更改root为自己的用户名（hyxy ALL=(ALL) ALL）

2018-11-08 09:07:14 449

原创克隆虚拟机后解决eth0消失或变成了eth1的问题

1、在命令行中输入：sudo vim /etc/udev/rules.d/70-persistent-net.rules如果不用sudo可以自己切换root用户(比较麻烦)，如何设置sudo。2、将eth0那行删去，下面的eth1改为eth03、在命令行中输入：sudo vim /etc/sysconfig/network-scripts/ifcfg-eth04、将hwaddr修改...

2018-11-08 09:02:11 580

原创 namenode与datenode

HDFS上有两类节点以管理节点-工作节点进行，即一个namenode(管理节点)和多个datenode(工作节点)。namenode管理文件系统的命名空间，它维护着文件系统树及整棵树上所有文件和目录。这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜像文件(FS_image)和编辑日志文件(Edit_log)。namenode也记录着每个文件中各个块所在的数据节点信息(包括副本数，用...

2018-11-07 21:29:13 1428

原创 JSP内置九大对象

内置对象名类型request HttpServletRequestresponse HttpServletResponseconfig ServletConfigapplication ServletContextsession HttpSessionexception Throwa...

2018-10-28 10:18:41 150

原创在window下设置hosts配置主机名和ip的映射

点击此路径：C:\Windows\System32\drivers\etc找到hosts，win10直接打开hosts是不可以更改的，所以怎么办呢？将hosts文件复制到桌面(当然你可以复制到你想复制的地方），然后打开hosts文件，添加内容。然后将写好的hosts文件Ctrl c，再次打开此路径C:\Windows\System32\drivers\etc。Ctrl v 将文件粘...

2018-10-25 18:25:58 10648

原创 Hadoop问题集

Question One:运行没有显示日志信息解决方法：在hadoop的安装目录下的share目录下搜索log4j.properties(注意有两个log4j.properties，选择小的那个)，把它放入工程的src下，即可。如图：Question Two: Exception in thread "main" org.apache.hadoop.sec...

2018-10-24 22:18:39 375

空空如也

空空如也