自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive与HBase集成

0. 前提条件本文以CDH3u5版本为例,提供Hive与HBase集成的指南。在进行集成之前,Hadoop集群、HBase集群和Hive已经部署完毕。1.  配置Hadoop将hbase jar包加入Hadoop的CLASSPATH中,可以在hadoop的配置文件hadoop-env.sh中修改:export HADOOP_CLASSPATH = ":$HADOOP_C

2012-12-10 17:15:54 2754 2

原创 mysql安装配置随笔(1)

Q1 :如何在linux上安装mysql?A1: mysql其实是一个CS架构的软件系统。通常情况下,你需要安装server端和client端。最简单的方式是通过linux发行版本自带的安装软件来进行安装,比如redhat系的yum。不过,通过这样安装的mysql版本可能不是最新的,如果你想要安装最新版本的,可以从官网http://dev.mysql.com/downloads/,选择comm

2012-05-22 09:02:51 2368

原创 HDFS Raid 介绍

在分布式文件系统中,为了提高文件存储的可靠性,一般采用文件分Block的方法,并把每个Block的多个副本分别存储在不同的服务器上,Hadoop开源的分布式文件系统HDFS同样采用了这样的技术。但是,这样的方式会造成空间较大的浪费,HDFS每个文件的Block会有三个副本,如果文件大小为120MB,Block大小为64MB,则需要该文件会有两个Block,每个Block有三个副本,就是说一个120

2012-05-15 10:41:13 6738

原创 一行shell命令搞定在java源文件中添加license信息

这行神奇的命令是:find . -name \*.java -exec sh -c "if ! grep -q 'LICENSE-2.0' '{}';then mv '{}' tmp && cp LICENSEHEADER.txt '{}' && cat tmp >> '{}' && rm tmp;fi" \;其功能是遍历搜索当前目录(包括子目录)下所有的java文件,如果该java文件中

2012-03-26 12:05:50 3172

原创 Hadoop Namenode HA方案比较

我们来分析一下业界普遍关注的HDFS Namenode高可用解决方案,这些方案的提出无非都是想解决Namenode设计上的单点故障。这些方案按照部署类型可划分为主从(Master-Slave)和集群(Cluster),其中主从根据状态的一致程度又细分为冷备、温备和热备,按照切换方式可划分为人工切换和自动切换,按照数据同步方式可划分为共享存储和复写。 下图列举了目前HadoopHA方案,接下来我们对

2012-03-23 16:00:42 8303

原创 HDFS改造方案一览

近年来,已经有越来越多的企业参与到Hadoop社区的发展中来,它们对HDFS的改造提出了不同的方案,有的是基于社区版HDFS源码进行改造,比如Cloudera的CDH版本和Facebook的AvatarNode,也有的是参照HDFS重写一套分布式文件系统,比如百度的HDFS2和腾讯的XFS,当然社区也推出了新的版本Hadoop0.23。总的来看,Hadoop 0.23的Federation HDF

2012-03-23 15:48:09 3683

原创 Hadoop-1.0.0 HDFS append操作深入分析

社区版Hadoop 1.0.0中对HDFS append操作进行了重新设计和实现,解决了之前append操作实现的很多缺陷。下图是对HDFS append操作详细的一般分析,该操作涉及到client,namenode和datanode的很多交付,可见其复杂性。从Client角度来看,append一个文件首先需要调用DistributedFileSystem的append

2012-03-05 15:35:12 3846

原创 云计算之存储即服务-结构化数据存储(2)

为了支持结构化数据存储服务的高可用性和可扩展性,非关系型数据库的架构通常比较复杂,而且具体实现也不尽相同。我们分析了几种主流的非关系型数据库,总结了它们具体实现中的关键功能,其中主要包括了应用接口,数据管理,节点管理三大部分。1 应用接口应用接口是非关系型数据库提供给用户的编程接口,通过该接口用户可以享受非关系型数据库的数据存储服务。相对传统的数据库而言,非关系型数据库的应用接口有两个特点

2012-02-25 13:54:49 3098

原创 云计算之存储即服务-结构化数据存储(1)

如今,越来越多的用户开始接受并使用云计算提供的资源,访问量的激增对于基础设施的可用性和可扩展性是一个不小的考验。也许人们会问,能否采用传统的关系型数据库来实现结构化数据存储呢?实际上,一些web 2.0应用在诞生的初期也尝试过关系型数据库,比如,微博网站twitter就曾经用过MySQL,不过随着访问量的激增,MySQL表现出来的可扩展性越来越不如人意,最终twitter弃用了MySQL。从某种意

2012-02-25 13:44:36 2877

原创 云计算之存储即服务 - 分布式文件系统

我们知道,文件系统是负责存储和管理文件内容和元数据的软件系统,本地文件系统是将文件内容和元数据都保存在本地服务器上,而分布式文件系统是通过网络将这些数据保存在多个远程服务器上。通过分布式文件系统提供的接口,用户可以透明地操作存储在网络上的文件。在大数据(Big Data)日益盛行的今天,分布式文件系统是其必不可少的存储单元。相对于传统的文件系统,分布式文件系统具有很多优势。首先,由于不受本地存

2012-02-25 13:35:26 4176

原创 云计算之存储即服务 - 网络接入存储(NAS)

和上一遍所述的SAN一样,网络接入存储(NAS,network attached storage)也是一个传统的技术,不过它和SAN最大的区别在于提供的存储服务不同,SAN是面向块级别的,NAS是面向文件级别的。从SAN系统的组成来讲,它也可以分为三个部分:存储端、网络和服务器端,如下图:NAS的存储端主要是由虚拟化的存储资源池、控制器和接口组成。存储资源池的具体实现一般是采用磁盘阵列

2012-02-25 13:30:50 3075

原创 云计算之存储即服务 - 存储区域网络(SAN)

存储区域网络(SAN,Storage attached Network)在业界已经有几十年的历史,它经典、成熟而又在不断地发展。简单来说,SAN是一种高速存储网络,它负责提供服务器和存储系统之间的串行SCSI数据传输。从SAN的系统构成来看,它主要分为存储端,网络和服务器端三个部分,如下图所示:       存储端通常是由一组或多组磁盘构成的磁盘阵列。磁盘阵列的管理器通过RAID技术实

2012-02-25 13:25:25 3278

原创 Hadoop Herriot测试框架之旅——演示实例

我们来演示一下如何利用Herriot框架来跑一个测试用例。Herriot框架完全可以用于真实的HDFS分布式集群,但是为了方便起见,这个例子采用了HDFS的伪分布式集群,即在同一台机器上创建了一个namenode进程和一个datanode进程,并且在该机器上运行Herriot自带

2011-10-09 11:20:56 3049

原创 Hadoop Herriot测试框架之旅—源码分析

在Hadoop-0.21.0的目录结构中,common、hdfs和mapred作为独立的工程存在,因此与Herriot有关的代码也分别在不同的工程中,其中common工程里的是通用的一些代码,hdfs工程中实现了对HDFS集群的测试,mapred工程中实现了对MapReduce集

2011-10-08 14:44:16 2741

原创 Hadoop Herriot测试框架之旅——简介

Herriot测试框架是Hadoop-0.21.0及以后版本中新加入的测试框架,它的出现主要是为了尽可能地模拟真实的大规模分布式系统,并且对该系统实现自动化测试。和Hadoop以前的测试框架MiniDFSCluster类似,Herriot也采用了JUnit框架,此外,Herrio

2011-09-29 17:43:21 2836

原创 如何远程调试Hadoop代码

通常情况下,我们只是通过已经编译好的Hadoop jar包来运行Hadoop。如果我们更改了Hadoop的源码,希望对更改的代码进行远程调试,可以通过下面的步骤来进行: 1. 下载从Apache社区或者Cloudera网站上下载Hadoop的压缩包2. 在eclipse中创建一个java工程,并将该压缩包导入其中,建议在linux开发环境下完成3. 对Hadoop代码更改后,在li

2011-06-17 16:05:00 5472

原创 采用Apache Wicket搭建web应用开发平台

Apache Wicket的简介: Apache Wicket(http://wicket.apache.org/)是一个轻量级的web应用开发框架,它有几个特点:1. 采用Java和HTML语言就能够轻松上手进行开发,不需要学习额外的脚本语言,比如Ruby, Python和Groovy;2. 采用POJO数据模型,实现对各个web模块的MVC分离;3. 较少的XML配置;4.采用Maven进行包

2011-06-07 22:18:00 3424

原创 社区版Federated HDFS(多Name Node)实现浅析

Federated HDFS是对现有HDFS的改进,它支持一个HDFS集群中包含多个Name Node。本文浅析了社区版Federated HDFS的设计和实现。

2011-05-28 17:09:00 3386

原创 如何访问具有动态ip的linux服务器

<br />通用的方法可以采用花生壳,如果觉得麻烦,不妨用下面这个脚本,然后用crontab让它每个10分钟执行一次,如果ip发生变化了,便向你指定的邮箱发送一封包含更新了的ip的邮件。<br /> <br />ipsender<br />----------------------------------------------<br />#!/usr/bin/perl<br /><br />use LWP::Simple;<br />use strict;<br /><br />my $pu

2011-01-05 23:47:00 2931

CareerCup-Top 150 Questions 4th.pdf

CareerCup-Top 150 Questions 4th

2011-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除