自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 博客搬家到个人推文

sparkjvm博客已经搬家到github:   http://www.itweet.cn欢迎关注...

2015-07-13 22:38:04 640

原创 Cloudera-manager-installaction

1、基本环境准备[hadoop@hadoop html]$ sudo chkconfig iptables off   禁用防火墙[hadoop@hadoop html]$ vi /etc/selinux/config禁用selinux,SELINUX=disabled注:保存重启系统2、Cloudera Manager的离线安装包下载,构建CM本地源[ha

2015-01-04 11:33:47 4197

原创 HDFS NFS Gateway

1、mount hdfs,关闭 linux自带的几个和 hdfs需要启动冲突的服务        参考:(1) service nfs stop and service rpcbind stop   (2) hadoop portmap or hadoop-daemon.sh start portmap[hsu@server01 mnt]$ service portmap st

2015-01-04 11:29:24 2762

原创 Centos安装Ganglia

Centos安装Ganglia1、安装ganglia[root@itr-mastertest01 local]#  rpm -Uvh  http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm[root@itr-mastertest02 local]#  rpm -Uvh  http://

2015-01-04 10:55:44 772

原创 hadoop2.4.0 [自动HA]搭建

hadoop2.4.0自动的HA                   注明:前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本!          大数据讨论群:2883964681、 core-site.xmlfs.defaultFShdfs://myclusterhadoop.tmp.dir/usr/local/h

2015-01-04 10:37:49 617

原创 tachyon的编译

1、tachyon的编译支持hadoop2.2.0mvn clean package -Djava.version=1.7 -Dhadoop.version=2.2.0 -DskipTests[INFO] Scanning for projects...[INFO] ------------------------------------------------------------

2015-02-03 16:24:29 1097

原创 ssh批量分发数据

1、ssh安装包[hadoop@hadoop ~]$ sudo rpm -qa |grep -Ei openssopenssh-clients-5.3p1-104.el6_6.1.x86_64openssl-1.0.1e-30.el6_6.4.x86_64openssh-askpass-5.3p1-104.el6_6.1.x86_64openssh-5.3p1-104.el6_

2015-01-17 11:33:00 1246

原创 HDFS benchmark 基准测试

HDFS benchmark 基准测试

2015-01-09 09:59:26 11952

原创 安装linux系统后的基础优化

1、安装系统后的基础优化[hadoop@hadoop ~]$ cat /etc/centos-release 查看系统版本CentOS release 6.6 (Final)[hadoop@hadoop ~]$ uname -r  内核版本2.6.32-504.1.3.el6.x86_64[hadoop@hadoop ~]$ uname -m64位

2015-01-06 11:25:57 1291

原创 scala基础语法-隐式转换,隐式类

package org.xj.scala.spark/** * 隐式转换 */class Basic7 {}class A {}class RichA(a: A) { //A中增加方法,隐式转换  def rich {    println("rich...")  }}object Basic7 exten

2015-01-04 11:11:05 585

原创 scala基础语法-集合

package org.xj.scala.spark/** * 集合,Lise,Set,Map,Tuple */class Basic6 {}object Basic6 extends App {  val l = List(1, 2, 3) //值允许重复  //println(l)  val ll = l.map(2 * _) //_

2015-01-04 11:10:21 494

原创 scala基础语法-match模式匹配

package org.xj.scala.spark/** * 模式匹配 */class Basic5 {}//样例类,不可变性,val定义,不建议var ||-->常用于模式匹配/** * case class(多用在匹模式匹配中) * 构造器中的每一个类型都为val,不建议使用var *   不用new就可以直接产生对象(为什么?

2015-01-04 11:09:21 2572

原创 scala基础语法-包作用域

package org.xj.scala.sparkclass ApplyTest {  def apply() = "APPLY"  def test {    println("test")  }}object ApplyTest { //本身就是一个单例  var count = 0 //定义一个常量  def apply(

2015-01-04 11:08:14 641

原创 scala基础语法-类定义

package org.xj.scala.spark/** * .声明类:一个源文件中可以包含很多类,并且scala都是public级别的 */class Basic2 {}/** * 定义一个类 * Scala中的var/val/def * val和def都会被编译为一个方法,区别是:val会被编译器保证运行时其值不能改变,但def不同,是可以

2015-01-04 11:06:19 558

原创 scala基础语法-类定义

package org.xj.scala.spark/** * .声明类:一个源文件中可以包含很多类,并且scala都是public级别的 */class Basic2 {}/** * 定义一个类 * Scala中的var/val/def * val和def都会被编译为一个方法,区别是:val会被编译器保证运行时其值不能改变,但def不同,是可以

2015-01-04 11:03:50 523

原创 scala基础语法

package org.xj.scala.sparkclass Basic {}/** * 函数定义方式多种多样 */object Basic {  //定义函数,scala在花括号内默认,返回最后一行,当然写return 也不会报错,定义变量的时候赋值  def hello(name: String = "ChinaSpark"):

2015-01-04 11:02:48 666

原创 scala基础语法-抽象类

package org.xj.scala.spark/** * 抽象类: * 1、类的一个或者多个方法没有被完整的定义 *   2、声明抽象方法不需要加abstract关键字,只需要不写方法体 *     3、子类重写父类的抽象方法时不需要加override *     4、父类可以声明抽象字段(没有初始值的字段) *      5、子类重写父类的抽象字段时不需要加ov

2015-01-04 11:02:22 2570

原创 Linux6.5基于LVM的安装

0、安装之前需要注意    .截止目前CentOS6.x 的具体安装配置过程    .服务器相关设置如下:    操作系统:CentOS6.5 64位    IP地址:192.168.79.101    网关:192.168.79.100    DNS:8.8.8.8 8.8.4.4    备注:        CentOS6.5系统镜像有32位和64位两个版本,一

2015-01-04 10:57:06 5088

原创 install ganglia[ubuntu]

Install and config Ganglia on CDH5InstallServer node1. install packagessudo apt-get install ganglia-monitor ganglia-webfrontend gmetad2. edit /etc/ganglia/gmond.confsample gmon

2015-01-04 10:54:35 724

原创 sqoop基本使用

SQOOP是用于对数据进行导入导出的。    (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中    (3)安装sqoop        [root@hadoop0 local]# tar -zxvf sqoop-1.4.3.bin__hadoop-1.0.

2015-01-04 10:53:01 1333

原创 flume安装使用

1、flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2、flume里面有个核心概念,叫做agent(代理人).agent是一个java进程,这个java进程运行在一个代理端,就是日志收集节点.3、agent包含3个核心组件:source,channel(信道),sink(接收器).3.1 source组件专用于收集日志的,它可以处理各种类型各种格式的日志数据,包

2015-01-04 10:52:06 852

原创 Impala Parquet 表 分区表

1、Impala Parquet 表 分区表#parquet表[hadoop02:21000] > create table parquet_ex_sms_event LIKE i_bil_hb_d.ex_sms_event stored as parquet;    Query: create table parquet_ex_sms_event LIKE i_bil_hb_

2015-01-04 10:50:03 2980

原创 zookeeper介绍

1、ZooKeeper    1.1 它可以用来保证数据在zk集群之间数据的事务性一致    1.2 默认数据大小应该限制在2M以下,这样才能保证数据一致性2、如何搭建ZooKeeper服务器集群    2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致    2.2 拷贝zookeeper-3.4.5.tar.gz文件到/usr/local/下面,解

2015-01-04 10:48:37 679

原创 zk集群搭建搭建

zk集群搭建http://apache.fayea.com/apache-mirror/zookeeper/1、解压tar -zxvf zookeeper-3.4.6.tar.gz 2、复制示例文件cp /usr/local/zookeeper-3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper-3.4.6/conf/zoo.c

2015-01-04 10:46:43 1696

原创 hbaes实战

1、HBase 的数据模型(NoSQL系列数据库)1.1 表(table),是存储管理数据的1.2 行键(row key),类似于mysql中的主键    行键是HBase天然自带的。1.3 列族(column family),列的集合    HBase是需要在定义表时指定的,列是在插入记录时动态增加的。    HBase表中的数据,每个列族单独一个文件1.4 时间

2015-01-04 10:45:39 879

原创 hbase完全分布模式的安装

1、hbase的分布模式1.1 在itr-mastertest01上解压缩[root@itr-mastertest01 installpackage]# tar -zxvf hbase-0.98.6.1-hadoop2-bin.tar.gz -C /usr/local/[root@itr-mastertest01 local]# mv hbase-0.98.6.1-hadoop2 hb

2015-01-04 10:43:39 481

原创 hive基础入门

1.Hive    在hadoop属于数据仓库的角色,能够管理hadoop中的角色,同时可以查询hadoop中的数据.    Hive本质上讲他是一个sql解析引擎,hive可以把sql查询转换为MapReduce中的job来运行.    Hive有一套映射工具,可以把sql转换为MapReduce中的Job,可以把sql中的表字段转换为HDFS中的    文件(夹),以及文件中的

2015-01-04 10:42:34 1245

原创 hive的安装+msyql远程元数据库+hive的进阶优化

1、安装mysql-5.5(1)、rpm包安装mysql[root@itr-mastertest01 installpackage]# scp MySQL-client-5.5.40-1.linux2.6.x86_64.rpm MySQL-server-5.5.40-1.linux2.6.x86_64.rpm itr-mastertest02:/usr/local/[root@itr-

2015-01-04 10:40:57 819

原创 docker的使用

QQ群讨论:288396468(hadoop,spark,docker,hive,hbase,zk,java,scala等等)说明:这样的资源会在群共享中,以及hadoop实战调优等等,spark的基础到实战,hive等等,docker最近在整理!CentOS6对于CentOS6,可以使用EPEL库安装Docker,命令如下$ sudo yum install http

2015-01-04 10:38:45 506

原创 hadoop-2.4.0的Federation搭建

hadoop-2.4.0  Federation的搭建注明:前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本!          大数据讨论群:288396468ns1的namenode:itr-mastertest01ns2的namenode:itr-mastertest02datanode:itr-nodetest01,itr-nodete

2015-01-04 10:34:46 438

原创 hadoop-2.5.0-cdh5.2.0伪分布模式搭建

hadoop-2.5.0-cdh5.2.0伪分布模式搭建注明:前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本!          大数据讨论群:2883964681、 core-site.xmlfs.defaultFShdfs://itr-mastertest01:9000hadoop.tmp.dir/usr/

2015-01-04 10:31:47 665

原创 编译spark:[thriftServer.sh属于测试阶段 hive-0.13.1]

编译spark:[thriftServer.sh属于测试阶段 hive-0.13.1]说明: 目前已经发布了1.2版本此文至合适安装参考,不用自己编译了vi  sql/hive/pom.xml 支持读取parquet           com.twitter           parquet-hive-bundle           1.5.0       

2015-01-04 10:30:42 1010

原创 spark1.1的部署、sparksql CLI、sparksql-jdbc运用

SparkSql实际运用:在spark0.9.x中不支持jdbc操作,spark1.1会加入jdbc支持版本说明:spark-1.1.0+scala-2.10.4+hive-0.12.0注意:版本不匹配可能出现各种不同的问题,可能出现不能配合工作,或者运算结果不对的情况!QQ群讨论:288396468spark1.1的发布正式版:2014/9/111、增加s

2015-01-04 10:29:49 823

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除