5 leishenop

尚未进行身份认证

开源改变世界

等级
TA的排名 4w+

Hadoop - HDFS和Yarn相似之处

最近看了HDFS原理和Yarn的原理

2019-02-20 14:45:18

HDFS - Namenode源码解析(转)

最近重温HDFS Namenode的原理,网上找到的这篇博客讲解的挺好,分享给大家。Namenode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。NameNode作为HDFS中文件目录和文件分配的管理者,它保存的最重要信息,就是下面两个映射:文件名=>数据块数据块=>DataNode列表其中,文件名=>数据块保存在磁盘上(持久化);但...

2019-02-20 14:00:44

大数据平台架构技术选型与场景运用

导读:本文将大数据的工作角色分为三种类型,包括业务相关、数据科学相关和数据工程。大数据平台偏向于工程方面,大数据平台一般包括数据源、数据采集、数据存储、数据分析等方面。讲师从数据来源、数据源结构、数据变化程度和数据规模等4个维度对数据源进行分类,数据源分类维度的不同决定最后的技术选型。讲师还对数据源分类的定义及选型方式进行详细讲解,最终联系到大数据的应用场景,让数据应用方式更加直观。

2017-06-21 10:21:18

用于实时大数据处理的Lambda架构

这篇文章讲的很详细,这里进行转载一下,一起学习进步1.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构

2017-06-19 16:10:55

LSM树由来、设计思想以及应用到HBase的索引

讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来:哈希存储引擎  是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.RightB树存储引擎是B树(关于B树的由来

2017-06-19 10:51:42

HBase数据库的元数据提取

在HBase数据库中,我总结的元数据总共包括两种数据,一是所有的表,二是表的元数据和表里面的部分样本数据。下面就是我进行元数据获取的步骤。1连接到HBase我们要从zookeeper中去获取HBase里面的数据库相关数据,下面是连接的代码:首先在Maven的pom.xml引入下面的依赖,记住引入的依赖的版本一定要大于等于你们集群使用的版本,之前就是引入低于集群版本的jar包,导致连不上。

2017-05-24 18:00:08

Hadoop 多输入和多输出研究(如何在Job History中获取相关信息)

Hadoop FileInputFormat多输入使用FileInputFormat来指定多个输入.当我们使用FileInputFormat.setInputPaths(JobConf conf, Path... inputPaths)FileInputFormat.addInputPaths(JobConf conf, String commaSeparatedPaths)来设定有多个输入路径的

2017-05-11 17:39:15

Hadoop Parquet File 文件的读取

产生parquet数据这里通过Spark SQL来从CSV文件中读取数据,然后把这些数据存到parquet文件去。 SparkContext context = new SparkContext(new SparkConf().setMaster("local").setAppName("parquet")); SQLContext sqlCont

2017-05-11 14:10:48

Hadoop RCFile存储格式详解(源码分析、代码示例)

RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。 关键词:Record、Columnar、Key、Value。 RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子。 假设我们有这样一张9行3列的Hive数据...

2017-05-10 14:49:51

Hadoop Sequence File 文件的读取和写入

写入代码下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value. Configuration config = new Configuration(); FileSystem fs = FileSystem.get(conf); int i = 0; Path path = ne

2017-05-09 09:41:12

git checkout : You have local changes cannot switch branches&Entry would be overwritten by mege

摘要:分支切换在Git的使用中可谓是最重要的部分之一,而git checkout还经常被用于回滚当前工作目录——当然,也被用来做 分支切换。因此,这是出错率极高的命令。本文主要为你解析git checkout的两个如标题总的特殊错误,然后分析git checkout的回滚作用。When are not given, this command switches branch

2017-05-04 14:41:56

Ambari 整体架构理解

Ambari是hadoop分布式集群配置管理工具,是由hortonworks主导的开源项目。它已经成为apache基金会的孵化器项目,已经成为hadoop运维系统中的得力助手,引起了业界和学术界的关注。现在我们将深入学习Ambari原理及其架构。Ambari架构采用的是Server/Client的模式,主要由两部分组成:ambari-agent和ambari-server。ambari依赖其它...

2017-04-30 19:44:13

MySQL,HDFS,HBase相似之处

这几天一直在看MySQL底层的一些东西,看到最后,越来越觉得MySQL,HBase,HDFS之间有很多相似的地方,所以在这里来记录这些相似之处,和大家一起学习。1. 预写日志在MySQL Innodb中,有Redo日志和二进制日志。当我们进行数据库更改的时候,更改的操作会记录在Redo日志中,同时也会记录在二进制日志中。Redo日志主要保证了事务的持久性,以后可以通过回放Redo中的修改操作,来进

2017-04-19 12:26:29

git提示error setting certificate verify locations解决办法

错误信息使用TortoiseGit执行pull命令时显示git.exe pull --progress --no-rebase -v "origin"fatal: unable to access 'https://github.com/konsumer/arduinoscope.git/': error setting certificate verify locations:

2017-04-14 19:58:46

分布式理论之一:Paxos算法的通俗理解

维基的简介:Paxos算法是莱斯利·兰伯特(Leslie Lamport,就是 LaTeX 中的"La",此人现在在微软研究院)于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法。Paxos算法目前在Google的Chubby、MegaStore、Spanner等系统中得到了应用,Hadoop中的ZooKeeper也使用了Paxos算法,在上面的各个系统中,使用的算法与Lam

2017-04-12 16:00:35

理解B+树算法和Innodb索引

一、innodb存储引擎索引概述:innodb存储引擎支持两种常见的索引:B+树索引和哈希索引。innodb支持哈希索引是自适应的,innodb会根据表的使用情况自动生成哈希索引。B+树索引就是传统意义上的索引,是关系型数据库中最常用最有效的索引。B+树是从最早的平衡二叉树演变而来,但是B+树不是一个二叉树。B+中的B不代表二叉(Binary),而是代表平衡(Balance

2017-04-04 15:32:22

腾讯云一面(2017.3.15)

网上关于腾讯云的面试好少,所以在这里记录一下,和大家一起分享面试经验。在3.15号早上,当时还在图书馆看书的时候,突然接到了腾讯云(成都)打来的电话,因为之前在年级群里面申请过,所以在接到电话的时候,自己还是特别兴奋,因为在图书馆不方便说话,果断的约在了下午两点钟。下午两点多一点,电话果然打过来了。于是就开始了一面之旅。 自我介绍 讲述HDFS上传文件和读文件的流程 HDFS在上传

2017-03-20 14:16:06

腾讯云的一道面试题----- 一致性Hash算法

今天在面试腾讯的时候,被面试官问到这块的知识,之前只是了解过,没有真正深入的了解,现在才知道自己的差距,要更加努力的补充这些技术知识了。下面是非常好的这块的资料,和大家一起分享。一致性 hash 算法( consistent hashing )张亮consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random

2017-03-15 22:46:33

Spark Graphx - 构建网络代码讲解

这几天在使用微博的数据来做一些分析,我用Spark Graphx来进行微博转发网络的建立。新手哦刚开始学习Spark Graphx时,可能不会使用Spark Graphx来进行关系网络的建立。下面根据官网的例子来进行讲解.下面是官网的代码:val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((3L, ("rxin

2017-03-10 15:51:45

Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x

今天在使用之前用CDH装的集群中的Hive时,一些常规的操作可以执行,但是使用了select操作的时候就会报出下面的错误:org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x

2017-02-17 15:10:22

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!