娘子，出来看上帝-CSDN博客

原创 ES（ElasticSearch）搜索

ES（ElasticSearch）搜索1、ES简介ElasticSearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中能够达到实时搜索，稳定可靠，快速，安装使用方便。基于RESTFUL接口。2、原理ES使用了倒排索引（inverted index），该结构对于全文检索非常快。倒排索引包括一个在任意文档中出现的唯一性的词语列表，对于每个词语，都有一个它出现过的文档...

2019-05-30 20:20:57 829

原创 Redis持久化

Redis持久化Redis是内存数据库，存在断电重连后数据消失的问题。为解决这一问题，Redis提供了将数据持久化到硬盘的功能，包括RDB和AOF两种方式，两种方式各有其优缺点。RDB方式：在默认情况下，Redis将数据库快照保存在名字为dump.rdb的二进制文件中，并在启动时自动加载rdb文件，恢复之前保存的数据。RDB机制将数据写入磁盘两种方式：1、save这是一种阻塞方式，主线...

2019-05-22 13:10:13 113

Linux系统Linux是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。Linux操作系统诞生于1991 年10 月5 日（这是第一次正式向外公布时间）。Linux存在着许多不同的L...

2019-04-28 16:46:54 204

原创 storm-流式处理框架

storm是实时的，分布式以及具备高容错的计算系统。一、架构介绍上述内容有三个关键词：实时、分布式、高容错。实时：storm最早是由Twitter（推特）在GitHub上开源出来的。推特我们大家都知道，类似于微博的东西，所以他要求处理速度非常快，点一下马上出来内容才可以。那么，他是怎么做到实时的呢？1）storm进程是常驻内存的。与MapReduce不同，MapReduce是进程运行完...

2019-04-19 20:10:28 762

原创 redis集群搭建

Redis3.0之后支持Cluster1、下载Redis：http://45.252.224.66/files/200500000CCBFA57/download.redis.io/releases/redis-3.0.0.tar.gz2、上传到服务器，解压tar -zxf redis.tar.gz3、编译安装make安装到/opt下的Redis3目录make install PR...

2019-04-18 12:47:00 165

原创 Redis

Redis是开源的（BSD协议），使用C语言编写，基于内存的且支持持久化，高性能的key-value的NoSQL数据库。一、为什么使用Redis我们为什么选择使用Redis呢？第一个原因就一个字，那就是快！！正所谓天下武功，唯快不破！Redis为什么这么快呢？原因有三：1）、Redis是纯内存操作，避免频繁读写IO浪费时间2）、单线程运行（可以看出Redis作者非常自信），省去了线程上...

2019-04-17 23:54:28 158

原创 zookeeper工作原理、过半机制、服务器为什么是奇数台

一、zookeeper工作原理zookeeper的核心是原子广播，这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，分别是恢复模式（选主）和广播模式（同步）。在服务启动或者领导者崩溃之后，Zab就进入恢复模式，当领导者被选举出来，且大多数server都完成了和lender的状态同步之后，恢复模式就结束了。状态同步保证了Server和leader...

2019-04-16 08:33:55 3615

原创二分法查找

二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。但是，折半查找要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。一、查找过程首先，用二分查找表中的元素是有序的。将查找的关键字与表的中间位置的关键字比较，如果相等，则返回。如果待查找的关键字比表中间的关键字小，则查找表的左边。如果待查找的关键字比表中间的关键字大，则查找表的右边。二、算法实现 ...

2019-04-14 20:50:18 197

原创 MapReduce提交作业流程

一、角色Client：客户端Yarn：负责资源管理和调度ResourceManager：主Manager，核心。集群节点资源管理。NodeManager：与MRAppMaster(下面简称MR)汇报资源信息。启动并监控集群中的计算容器。MRAppMaster：负责任务切分、任务调度、任务监控和容错（启动失败后，由yarn重新启动。任务失败后，重新申请资源）等。二、执行流程客...

2019-04-12 20:47:50 321

原创 MapReduce原理简介

一、MapReduce是什么 MapReduce是一种分布式计算框架，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。主要用于搜索领域，解决海量数据的计算问题。 MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。二、MapReduce做什么 MapReduce框架由Map和Reduce组成...

2019-04-12 08:36:11 261

原创 Hadoop--HA架构详解

一、HA架构工作背景HDFS集群中的nameNode存在单点故障因素。对于只有一个nameNode工作的集群来说，一旦nameNode出现意外情况，会导致整个集群无法工作，直到nameNode重新启动。为了解决上述问题，Hadoop给出了高容错，高可用的HA方案：一个HDFS集群至少存在两个nameNode，一个nameNode处在active（主）状态，其他nameNode处在standby...

2019-04-10 08:20:41 593

原创 HDFS架构简述

HDFS架构简述一、HDFS简介HDFS（Hadoop distributed File System）：Hadoop分布式文件系统。是基于流数据模式访问和处理超大文件的需要而开发的，可以运行于廉价的服务器上。它所具有的高容错，高可靠性，高可扩展性，高获得性，高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用带来了很多便利。简单来说就是把一个超大号文件按一定大小分割并放置在多台服...

2019-04-10 08:17:18 6448

weixin_43462670的博客