8 xiaohei.info

尚未进行身份认证

我要认证

Talk is cheap,show me the code.

等级
TA的排名 6k+

Zookeeper概览

前言Zookeeper 是一个典型的 分布式数据一致性 的解决方案,是谷歌 Chubby 的开源实现,在分布式系统中有非常广泛的应用。分布式应用程序可以基于它来实现 数据发布/订阅、分布式协调/通知、集群管理、Master 选举、命名服务、分布式锁和分布式队列 等功能。在诸如 HDFS、Yarn、HBase、Kafka、Flink 等著名分布式系统中都使用 Zookeeper 来实现各自的 ...

2019-12-06 09:34:24

Kafka最佳实践

前言Kafka 是一种分布式的,基于发布/订阅体系的消息队列系统。能够以 时间复杂度为 O(1) 的方式提供消息持久化能力,即使对 TB 级以上数据也能保证 常数时间复杂度 的访问性能。即使在非常廉价的商用机器上也能做到单机支持每秒 100K 条以上消息的传输。kakfa 是大数据系统架构中不可或缺的一部分,因其高效的性能、高可靠的数据与服务、提供准确一次的语义、优秀的在线水平扩展等特性,...

2019-11-28 09:18:01

Flink最佳实践(二)Flink流式计算系统

前言在 Flink最佳实践(一)流式计算系统概述 中,我们详细讨论了流式计算系统中 时域、窗口、时间推理与正确性工具 等概念。本文将以这些概念为基础,逐一介绍 Flink 的 发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API 等内容,让开发人员对 Flink 有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1 数据处理架构在流处理器出现之前,数据处...

2019-11-25 09:41:51

Flink最佳实践(一)流式计算系统概述

前言传统的批处理拥有巨大 吞吐量 的优势,但是随之而来的是极其 高延迟 的缺陷。随着大数据系统的不断发展,传统的批处理已然无法全部满足对 时效性 要求愈加严苛的业务需求。为了适应逐渐变得 「实时」 的年代,大数据系统架构也由简单的批处理转向批流混合的Lambda架构,最后可能会逐渐演变成只有流计算的 高精准高时效 的Kappa架构。无论是看起来像是过渡期产物的批流混合,还是感觉像是 「终结...

2019-11-18 15:32:50

个人信息安全管理条例解释

一、前言近年来,随着信息技术的快速发展和互联网应用的普及,越来越多的组织大量收集、使用个人信息。给人们生活带来便利的同时,也出现了对个人信息的 非法收集、滥用、泄露 等问题,个人信息安全面临严重威胁。为了保护公民个人隐私数据不被肆意收集、滥用、泄漏甚至非法售卖,各国政府纷纷出台相关法律政策文件,对公民个人隐私数据做出法律上的保护与行为规范。2018年5月25日起,欧盟正式施行新版数据安全保护...

2019-11-06 19:45:56

Spark最佳实践-项目规范

前言大数据开发的日常工作中,开发人员经常需要使用 Spark、Flink 等计算引擎作为工具来实现一些 业务逻辑 的计算。以 Spark 为例,开发人员会使用 SparkSQL、DataFrame、RDD 等不同形式的API来实现业务需求。通常情况下,简单的需求都可以通过 SparkSQL、DataFrame 很方便的实现,其简洁的API也是其深受数据分析师青睐的原因之一。但是正是因为 S...

2019-10-17 01:42:54

HBase最佳实践

本文致力于从架构原理、集群部署、性能优化与使用技巧等方面,阐述在如何基于HBase构建 容纳大规模数据、支撑高并发、毫秒响应、稳定高效的OLTP实时系统 。一、架构原理1.1 基本架构从上层往下可以看到HBase架构中的角色分配为:ClientZookeeperHMasterRegionServerHDFSClientClient是执行查询、写入等对HBase表数据进行增...

2019-10-11 22:36:38

Spark最佳实践

前言本文主要分为四个部分:分布式计算概览:第一章将会从基础的 分布式计算理论 开始,讨论一个分布式计算系统需要实现哪些 主要的功能,以及业界通用的解决方案,并在最后简单扩展了下分布式计算系统的发展历程。这部分主要为开发人员 奠定分布式计算系统的重要理论概念。Spark技术细节:基于第一章讨论的理论知识,在第二章中我们将会深入讨论Spark是如何 通过从逻辑执行图转化为物理执行图 来实现分布...

2019-10-11 10:28:53

Spark分布式计算引擎的应用

什么是分布式计算基本概念和集中式计算相反,分布式计算的一个计算过程将会在多台机器上进行。组件之间彼此进行交互以实现一个共同的目标,把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论。简单说就是1个人干活和100个人干活的区别。分布式计算是一门计算机科学的研究课题,涉及到许多分支技术(CS模型、集群技术、通用型分布式计算环境等)。...

2018-12-06 20:06:09

HBase生产环境配置与使用优化

https://yq.aliyun.com/articles/665520?spm=a2c4e.11155435.0.0.407c3312acd7tdHBase上线至今,承载了线上所有实时交易量,虽然大部分请求都能够保证服务稳定(99.56%响应时间毫秒级),但是一旦HBase出现问题就是鸡飞狗跳的灾难。从老机器到新集群,从老机房到新机房,期间经历过各种问题和生产故障,总结一番以备不时之需。...

2018-11-12 10:16:19

CDH5.3配置Kerberos+LDAP+Sentry记录

系统环境说明操作系统:Centos6.5CDH版本:5.3JDK版本:1.7操作用户:rootKerberos版本:1.10.3 LDAP版本:2.4.40 Sentry版本:1.4 集群配置机器数量:5 内存:64G 硬盘:10T CPU核心数:24 运行的服务:HDFS、Yarn、HBase、Hive、Sqoop2、Impala、Zookeep

2016-09-06 11:35:55

HBase客户端API使用

篇幅中使用的HBase版本为1.1.2Java APIHBase提供了一套Java API来支持Java程序对HBase数据库的请求操作,在hbase shell中能够使用的都可以通过这套API来实现 HBase有两套API,分别是1.0和2.0,在较新版本的HBase中使用1.0的API时,很多类和方法都被标记为Deprecated,官方表示旧版本的API将会在3.0版本中删除,

2016-07-21 19:07:59

HBase集群管理

通过之前文章的描述,我们已经有能力设计并部署搭建HBase集群了 当我们的HBase集群开始运行的时候,新的挑战又来了 例如,我们可能会遇到在集群运行的时候添加或者删除节点 又或者需要拷贝/备份整个集群的数据等等 如何在集群运行的时候以最小的代价来执行这些操作呢? 下面总结一下HBase集群的相关运维和管理知识点运维任务添加/删除节点在HBase中动态添加/删除节点非常简单,只需要一些命

2016-07-20 19:01:21

HBase概览

近期准备系统的学习一下HBase的知识,包括构架和原理等方面,以便为后续的开发工作做准备,做到知其然而之所以然的状态,而不再是瞎子摸象般的搞开发 本篇作为开篇,只是对HBase做一个大体的介绍,各个小节没有很大的关联性,很多只是将系统中一些繁杂又有用的东西记录下来,以备日后查阅学习路线整理了一下手头上HBase的相关资料,发现特别零散,没有一个系统性的指导,所以特别想入一本《HBase权威指南》

2016-07-20 13:43:45

HBase性能优化指南

垃圾回收优化当region服务器处理大量的写入负载时,繁重的任务会迫使JRE默认的内存分配策略无法保证程序的稳定性 所以我们可能需要对region服务器的垃圾回收机制进行一些参数调整(因为master并不处理实际任务,所以没有优化的必要)首先来了解JAVA内存中的几个概念在HBase构架中我们可以知道 数据会被写入到memstore内存中直到达到一个阈值之后刷写持久化到磁盘 但是由于数据是客户

2016-07-19 16:55:24

HBase高级用法

行健设计在HBase中有两类基本的键结构:行健和列键 这两者都存储着有意义的信息,不仅仅是该键对应的值: 键本身存储的内容 键的排列顺序 在HBase中,键的排序顺序是十分重要的概念如之前所说,HBase的键分为两种: 列键:包括了列族名和限定符,定位到列的索引 行健:相当于关系型数据库中的主键,通过行健得到逻辑布局中一行的所有列 如

2016-07-18 09:52:35

HBase构架

存储结构HBase构架如上图所示,一个HBase集群是由Zookeeper、HMaster和HRegionServer构成的HRegionServerHBase集群上的各个节点,一个数据量很大的表可能被保存在不同RegionServer上HLogHBase将数据存储在各个HRegionServer上,每个HRegionServer都有一个HLog文件记录该节点上数据的CRUD操作记录 图中错误的地

2016-07-12 19:34:19

Hadoop集群管理

HDFS进程目录结构对于一个集群管理员来说,理解HDFS各个进程存储在磁盘上的数据含义是十分有用的,可以帮助你诊断和排查一些集群问题Namenode的目录结构HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一些列文件: ${dfs.namenode.name.dir}/├── current │ ├── VERSION │ ├──

2016-05-22 11:30:14

构架Hadoop集群

Hadoop的安装包可以从以下渠道获取: Apache tarballs:Hadoop官网提供的tar包,包括二进制和源码文件,使用这种方式部署Hadoop集群灵活性比较高,但是要自己进行很多额外的操作 Packages:Hadoop也提供RPM和Debian包,先对比tar包,rpm可以简化部署时候的配置路径等繁琐的操作,并且和Hadoop生态圈中的各个组件版本都兼容对应

2016-05-14 09:59:11

MapReduce高级特性

计数器因为计数器的查看往往比查看集群日志来的方便快捷 所以有些情况下计数器信息比集群日志更加有效用户自定义的计数器关于Hadoop的内置计数器的介绍可以参考Hadoop权威指南第九章MapReduce Features中的Build-in Counts小节 这里限于篇幅不再说明MapReduce允许用户在程序中使用枚举或者字符串的格式类自定义计数器 一个作业可以定义的计数器不限,使用枚举类型时

2016-05-10 20:35:43

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。