自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

转载 Linux 里面的文件操作权限说明

0 - 没有权限 1 - 执行权限 2 - 书写权限 3 - 书写执行权限 4 - 读权限 5 - 读和执行权限 6 - 读和书写权限 7 - 读,写入,执行权限 文件组 1 - 全部 2 - 组3 - 其他的 例子:777 - 任何一个能读能写能执行权限 700 - 所有者,可以读写,和执行 755 - 所有者,可以读写,和执行

2015-04-16 15:51:02 674

转载 使用Hadoop和Hive命令行

hadoop解压 gz 文件到文本文件$ hadoop fs -text /hdfs_path/compressed_file.gz | hadoop fs -put - /tmp/uncompressed-file.txt解压本地文件 gz 文件并上传到 hdfs$ gunzip -c filename.txt.gz | hadoop fs -put - /tmp/

2015-04-16 10:54:14 2106

转载 CDH5 Apache Spark初体验

Apache Spark是一个通用的分布式计算框架,为大规模数据处理提供了一个高效、可扩展的计算引擎。由于性能、接口、功能的那个多种原因,Spark正处于“风头浪尖”,热度也超过了MapReduce。在这片博文中,你将学习到如何在CDH5上使用Maven编译、运行一个Spark应用程序。预备知识:Scala + Maven完整的代码可以从github地址 h

2015-04-08 09:21:09 1952

转载 YARN动态资源池配置案例

EDH作为统一的企业级数据中心,往往是一个多租户的应用环境。在该环境中,不同用户会同时使用集群资源。如何保证用户数据不被任意篡改?如何保证任务的权限控制 (例如用户A不能任性地取消用户B的任务)?如何确保用户资源使用不超过他们的配额?1. 开启HDFS权限检查 (默认是开启的)"Check HDFS Permissions"选中2.

2015-04-08 09:17:03 5814

转载 linux性能分析及调优

cpu 性能瓶颈调优可调性能参数 、内存性能瓶颈可调性能参数(操作系统设置swap的目的、在写程序时、如何使自己的内存不被换出swap,常驻物理内存)、磁盘I/O可调性能参数(如何判断磁盘IO瓶颈,使用iostat -x 1)、网络可调性能参数 第一节:cpu 性能瓶颈 计算机中,cpu是最重要的一个子系统,负责所有计算任务;基于摩尔定律的发展,cpu是发展最快的一个硬件,所以

2015-03-30 16:20:07 527

转载 Kerberos认证流程详解

原文  http://blog.csdn.net/jewes/article/details/20792021Kerberos是诞生于上个世纪90年代的计算机认证协议,被广泛应用于各大操作系统和Hadoop生态系统中。了解Kerberos认证的流程将有助于解决Hadoop集群中的安全配置过程中的问题。为此,本文根据最近阅读的一些材料,详细介绍Kerberos认证流程。欢迎斧正! 

2015-03-17 16:56:45 1216

转载 linux下查看所有用户及所有用户组

groups 查看当前登录用户的组内成员groups gliethttp 查看gliethttp用户所在的组,以及组内成员whoami 查看当前登录用户名/etc/group文件包含所有组/etc/shadow和/etc/passwd系统存在的所有用户名1、/etc/group 解说;/etc/group 文件是用户组的配置文件,内容包括用户和用户组

2015-02-27 13:47:39 788

转载 linux 新建用户、用户组 以及为新用户分配权限

Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪,并控制他们对系统资源的访问;另一方面也可以帮助用户组织文件,并为用户提供安全性保护。每个用户账号都拥有一个惟一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后,就能够进入系统和自己的主

2015-02-27 13:41:27 923

转载 Fair Scheduler

与Capacity Scheduler类似,Fair Scheduler以队列为单位划分资源,每个队列可设定一定比例的资源最低保证和使用上限,同时,每个用户也可设定一定的资源使用上限以防止资源滥用;当一个队列的资源有剩余时,可暂时将剩余的资源共享给其他队列。Fair Scheduler与Capacity Scheduler不同之处主要体现在以下几个方面:资源公平共享:在每个队列中,Fair

2015-02-10 11:00:44 1734

转载 Hadoop 2.0中Capacity Scheduler与Fair Scheduler对比

随着Hadoop版本的演化,Fair Scheduler和Capacity Scheduler的功能越来越完善,包括层级队列组织方式、资源抢占、批量调度等,也正因如此,两个调度器同质化越来越严重,目前看了,两个调度器从设计到支持的特性等方面非常接近,而由于Fair Scheduler支持多种调度策略,现在看来,可以认为Fair Scheduler具备了Capacity Scheduler具有的

2015-02-10 10:40:36 1915

转载 LDAP 中DN、CN、DC的含义

很多人虽然会使用dsadd等命令添加用户,但是dsadd的命令说明里面并没有涉及到dc,cn,ou的含义,很多人都不明白,这里是微软的技术支持人 员的回信,希望对大家有帮助。 CN, OU, DC 都是 LDAP 连接服务器的端字符串中的区别名称(DN, distinguished   name) LDAP连接服务器的连接字串格式为:ldap://servername/DN   

2015-02-03 14:24:33 19613

转载 Hadoop集群部署权限总结

这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项,包括 Hadoop 各个组件集成 kerberos、openldap 和 sentry 的过程。如果你想了解详细的过程,请参考本博客中其他的文章。1. 开始之前hadoop 集群一共有三个节点,每个节点的 ip、hostname、角色如下:192.168.56.121 cdh1 NameNo

2015-02-03 12:39:59 1596

转载 CDH 5.2中Impala认证集成LDAP和Kerberos

这是一篇翻译的文章,原文为 New in CDH 5.2: Impala Authentication with LDAP and Kerberos。由于翻译水平有限,难免会一些翻译不准确的地方,欢迎指正!Impala 认证现在可以通过 LDAP 和 Kerberos 联合使用来解决。下文来解释为什么和怎样解决。Impala,是基于 Apache Hadoop 的一个开源的

2015-02-03 12:39:18 2076

转载 Impala和Hive集成Sentry

本文主要记录 CDH 5.2 Hadoop 集群中配置 Impala 和 Hive 集成 Sentry 的过程,包括 Sentry 的安装、配置以及和 Impala、Hive 集成后的测试。使用 Sentry 来管理集群的权限,需要先在集群上配置好 Kerberos。关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章:HDFS配置K

2015-02-03 12:38:22 5642

转载 Hadoop配置LDAP集成Kerberos

本文主要记录 cdh hadoop 集群集成 ldap 的过程,这里 ldap 安装的是 OpenLDAP 。LDAP 用来做账号管理,Kerberos作为认证。授权一般来说是由应用来决定的,通过在 LDAP 数据库中配置一些属性可以让应用程序来进行授权判断。关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。参考 使

2015-02-03 12:37:45 4730

转载 Zookeeper配置Kerberos认证

关于 Hadoop 集群上配置 kerberos 以及 ldap 的过程请参考本博客以下文章:HDFS配置Kerberos认证YARN配置Kerberos认证Hive配置Kerberos认证Impala配置Kerberos认证Hadoop配置LDAP集成Kerberos参考 使用yum安装CDH Hadoop集群 安装 hadoop 集群,集群包括三个节点,每个节点的ip、主机名和

2015-02-03 12:36:28 13786 2

转载 Impala配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证,请参考 YARN配置kerberos认证。关于 Kerberos 的安装和 Hive 配置 kerberos 认证,请参考 Hive配置kerberos认证。请先完成 HDFS 、Y

2015-02-03 12:35:47 5614

转载 Hive配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。关于 Kerberos 的安装和 YARN 配置 kerberos 认证,请参考 YARN配置kerberos认证。请先完成 HDFS 和 YARN 配置 Kerberos 认证,再来配置 Hive 集成 Kerberos 认证 !参考 使用yum安装

2015-02-03 12:34:57 14693 1

转载 YARN配置Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。请先完成 HDFS 配置 Kerberos 认证,再来配置 YARN 集成 Kerberos 认证 !参考 使用yum安装CDH Hadoop集群 安装 hadoop 集群,集群包括三个节点,每个节点的ip、主机名和部署的组件分配如下:192.168.56

2015-02-03 12:33:09 3983

转载 HDFS配置Kerberos认证

本文转自:http://blog.javachen.com/本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程,包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意:下面第一、二部分内容,摘抄自《Hadoop的kerberos的实践部署》,主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个

2015-02-03 12:30:58 1578

转载 linux下使用yum安装mysql

linux下使用yum安装mysql1、安装查看有没有安装过:          yum list installed mysql*          rpm -qa | grep mysql*查看有没有安装包:          yum list mysql*安装mysql客户端:          yum install mysq

2015-01-28 18:43:02 449

原创 Flume-NG指令集和第一个简单的案例

# flume-ng指令commands:  help                      display this help text  agent                     run a Flume agent  avro-client               run an avro Flume client  version            

2015-01-23 11:39:14 3048

转载 SolrCloud简介

一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能:集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上

2015-01-23 09:19:48 493

转载 Flume NG:Flume 发展史上的第一次革命

背景Cloudera 开发的分布式日志收集系统 Flume,是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来

2015-01-23 09:01:42 503

翻译 【配置CDH和管理服务】关闭DataNode前HDFS的调优

配置CDH和管理服务关闭DataNode前HDFS的调优角色要求:配置员、集群管理员、完全管理员 当一个DataNode关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千上万个块,关闭后集群间还原备份数可能

2015-01-16 11:06:47 6278

转载 Hadoop 常见问题处理汇总

P1:ssh连接机器,出现ssh:NODE_166:Temporary failure in name resolution解决办法:检查/etc/hosts文件中定义了主机名和IP地址对应关系是否正确。P2: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io

2015-01-15 19:59:51 1870

转载 hadoop的dfs.replication和dfs setrep

首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1

2015-01-15 19:50:06 3318

转载 HDFS的dfs.replication不同验证

集群只有三个Datanode,hadoop系统replication=4时,会出现什么情况?文件块只有三份,hadoop fsck -locations 如图所示:       对于上传文件到hdfs上时,当时hadoop的副本系数是几,这个文件的块数副本数就会有几份,无论以后你怎么更改系统副本系统,这个文件的副本数都不会改变,也就说上传到分布式系统上的文件副本数由当时的系统副

2015-01-15 17:13:30 2596

转载 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制

第一部分:当前HDFS架构详尽分析    HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构:            ${ dfs.name.dir}/current /VERSION                  

2015-01-15 13:25:01 1915

转载 Hadoop集群节点的动态增加与删除

Hadoop集群节点的动态增加1. 安装配置节点具体过程参考 《Hadoop集群实践 之 (1) Hadoop(HDFS)搭建》2. 在配置过程中需要在所有的Hadoop服务器上更新以下三项配置$ sudo vim /etc/hadoop/conf/slaves1hadoop-node-12

2015-01-15 12:32:08 817

转载 Impala各版本新特性

自0.3之后的重点新特性1.0·        支持ALTER TABLE。·        支持通过Hints指定join策略。支持的Hints:o    [broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join)o    [shuffle]:   partitionedjoin策略(分片join)

2015-01-13 17:42:58 9460

原创 Cloudera Manager的备份和灾难恢复

注:只有Cloudera Manager企业版才有Cloudera Manager的备份和灾难恢复功能一、   概述Cloudera Manager提供了一个集成的、易于使用的管理解决方案,使数据保护在Hadoop的平台。Cloudera Manager提供了丰富的功能旨在复制存储在HDFS数据和通过Hive跨数据中心的灾难恢复场景。当关键数据存储在HDFS,Cloudera Mana

2015-01-13 10:29:11 7417 2

原创 Impala一些注意点

(1)数据类型(Data Types)使用数字(Numeric)类型(不是字符串)l   尽可能避免字符串类型l   字符串 =>更高的内存消耗、更多的存储空间、更慢的计算速度 Decimal vs Float / Doublel   Decimal更容易使用l   目前不能使用Decimal作为分区键或UDFs 只使用字符串的情况l  HBaseRow

2015-01-12 17:14:39 2686

原创 离线升级Cloudera Manager(CM)和Cloudera Data Hub(CDH)

升级Cloudera Manager(CM)管理界面点击“主机”,点击“重新运行主机升级向导”,添加Httpd的url路径,如:http://192.168.1.201/cm/5.2.0。升级Cloudera Data Hub(CDH)管理界面点击右上角像礼物包一样的图标,在右侧点击“编辑设置”,在“远程Parcel存储库URL”中添加http://192.168.1.201/

2015-01-12 12:38:34 3600

原创 重装CDH遇到的几个问题

1、HDFS启动失败原因:dfs目录下数据版本是老的。操作:删除dfs目录,重新初始化新的目录。2、Hbase Master启动失败原因:zookper 链接信息过期了。操作:进入zookeeper控制台:.../zookeeper/bin/zkCli.sh,查看目录:ls /,然后删除hbase目录:rmr /hbase,重启zk和hbase。

2015-01-12 12:30:28 1464

原创 卸载Cloudera Manager(CM)和Cloudera Data Hub(CDH)

1、先在Manage管理端移除所有服务。2、删除Manager Server在Manager节点运行$ sudo /usr/share/cmf/uninstall-cloudera-manager.sh如果没有该脚本,则可以手动删除,先停止服务:sudo service cloudera-scm-server stop      sudo service cloud

2015-01-12 12:24:12 1810

原创 手动安装Cloudera Manager

手动安装前需要先开启HTTPD服务执行/usr/sbin/apachectl start,开启后可以通过url访问/var/www/html下的目录。1、下载cloudera manager的repo资源下载 http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/5.2.1/RPMS/x86_64/ 下的资源到 /

2015-01-12 11:44:52 678

转载 手工释放linux内存——/proc/sys/vm/drop_cache

linux的内存查看:[root@localhost 0.1.0]# free -m                   total       used       free     shared    buffers     cachedMem:          4032        694       3337          0          0        

2015-01-12 11:32:10 415

转载 HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。解决的办法:1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让na

2015-01-09 16:36:44 1420

转载 Impala的中文翻译链接

Impala的中文翻译链接http://my.oschina.net/weiqingbin/blog?catalog=423691

2015-01-08 11:49:22 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除