sparkjvm-CSDN博客

原创博客搬家到个人推文

sparkjvm博客已经搬家到github: http://www.itweet.cn欢迎关注...

2015-07-13 22:38:04 640

原创 Cloudera-manager-installaction

1、基本环境准备[hadoop@hadoop html]$ sudo chkconfig iptables off 禁用防火墙[hadoop@hadoop html]$ vi /etc/selinux/config禁用selinux,SELINUX=disabled注：保存重启系统2、Cloudera Manager的离线安装包下载,构建CM本地源[ha

2015-01-04 11:33:47 4197

原创 HDFS NFS Gateway

1、mount hdfs，关闭 linux自带的几个和 hdfs需要启动冲突的服务参考:(1) service nfs stop and service rpcbind stop (2) hadoop portmap or hadoop-daemon.sh start portmap[hsu@server01 mnt]$ service portmap st

2015-01-04 11:29:24 2762

原创 Centos安装Ganglia

Centos安装Ganglia1、安装ganglia[root@itr-mastertest01 local]# rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm[root@itr-mastertest02 local]# rpm -Uvh http://

2015-01-04 10:55:44 772

原创 hadoop2.4.0 [自动HA]搭建

hadoop2.4.0自动的HA 注明：前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本！大数据讨论群：2883964681、 core-site.xmlfs.defaultFShdfs://myclusterhadoop.tmp.dir/usr/local/h

2015-01-04 10:37:49 617

原创 tachyon的编译

1、tachyon的编译支持hadoop2.2.0mvn clean package -Djava.version=1.7 -Dhadoop.version=2.2.0 -DskipTests[INFO] Scanning for projects...[INFO] ------------------------------------------------------------

2015-02-03 16:24:29 1097

原创 ssh批量分发数据

1、ssh安装包[hadoop@hadoop ~]$ sudo rpm -qa |grep -Ei openssopenssh-clients-5.3p1-104.el6_6.1.x86_64openssl-1.0.1e-30.el6_6.4.x86_64openssh-askpass-5.3p1-104.el6_6.1.x86_64openssh-5.3p1-104.el6_

2015-01-17 11:33:00 1246

原创 HDFS benchmark 基准测试

HDFS benchmark 基准测试

2015-01-09 09:59:26 11952

原创安装linux系统后的基础优化

1、安装系统后的基础优化[hadoop@hadoop ~]$ cat /etc/centos-release 查看系统版本CentOS release 6.6 (Final)[hadoop@hadoop ~]$ uname -r 内核版本2.6.32-504.1.3.el6.x86_64[hadoop@hadoop ~]$ uname -m64位

2015-01-06 11:25:57 1291

原创 scala基础语法-隐式转换,隐式类

package org.xj.scala.spark/** * 隐式转换 */class Basic7 {}class A {}class RichA(a: A) { //A中增加方法,隐式转换 def rich { println("rich...") }}object Basic7 exten

2015-01-04 11:11:05 585

原创 scala基础语法-集合

package org.xj.scala.spark/** * 集合，Lise,Set,Map,Tuple */class Basic6 {}object Basic6 extends App { val l = List(1, 2, 3) //值允许重复 //println(l) val ll = l.map(2 * _) //_

2015-01-04 11:10:21 494

原创 scala基础语法-match模式匹配

package org.xj.scala.spark/** * 模式匹配 */class Basic5 {}//样例类，不可变性，val定义，不建议var ||-->常用于模式匹配/** * case class(多用在匹模式匹配中) * 构造器中的每一个类型都为val，不建议使用var * 不用new就可以直接产生对象(为什么?

2015-01-04 11:09:21 2572

原创 scala基础语法-包作用域

package org.xj.scala.sparkclass ApplyTest { def apply() = "APPLY" def test { println("test") }}object ApplyTest { //本身就是一个单例 var count = 0 //定义一个常量 def apply(

2015-01-04 11:08:14 641

原创 scala基础语法-类定义

package org.xj.scala.spark/** * .声明类：一个源文件中可以包含很多类，并且scala都是public级别的 */class Basic2 {}/** * 定义一个类 * Scala中的var/val/def * val和def都会被编译为一个方法，区别是：val会被编译器保证运行时其值不能改变，但def不同，是可以

2015-01-04 11:06:19 558

原创 scala基础语法-类定义

package org.xj.scala.spark/** * .声明类：一个源文件中可以包含很多类，并且scala都是public级别的 */class Basic2 {}/** * 定义一个类 * Scala中的var/val/def * val和def都会被编译为一个方法，区别是：val会被编译器保证运行时其值不能改变，但def不同，是可以

2015-01-04 11:03:50 523

原创 scala基础语法

package org.xj.scala.sparkclass Basic {}/** * 函数定义方式多种多样 */object Basic { //定义函数,scala在花括号内默认，返回最后一行，当然写return 也不会报错,定义变量的时候赋值 def hello(name: String = "ChinaSpark"):

2015-01-04 11:02:48 666

原创 scala基础语法-抽象类

package org.xj.scala.spark/** * 抽象类： * 1、类的一个或者多个方法没有被完整的定义 * 2、声明抽象方法不需要加abstract关键字，只需要不写方法体 * 3、子类重写父类的抽象方法时不需要加override * 4、父类可以声明抽象字段（没有初始值的字段） * 5、子类重写父类的抽象字段时不需要加ov

2015-01-04 11:02:22 2570

原创 Linux6.5基于LVM的安装

0、安装之前需要注意 .截止目前CentOS6.x 的具体安装配置过程 .服务器相关设置如下: 操作系统:CentOS6.5 64位 IP地址:192.168.79.101 网关:192.168.79.100 DNS:8.8.8.8 8.8.4.4 备注: CentOS6.5系统镜像有32位和64位两个版本,一

2015-01-04 10:57:06 5088

原创 install ganglia[ubuntu]

Install and config Ganglia on CDH5InstallServer node1. install packagessudo apt-get install ganglia-monitor ganglia-webfrontend gmetad2. edit /etc/ganglia/gmond.confsample gmon

2015-01-04 10:54:35 724

原创 sqoop基本使用

SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 (3)安装sqoop [root@hadoop0 local]# tar -zxvf sqoop-1.4.3.bin__hadoop-1.0.

2015-01-04 10:53:01 1333

原创 flume安装使用

1、flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2、flume里面有个核心概念，叫做agent(代理人).agent是一个java进程,这个java进程运行在一个代理端,就是日志收集节点.3、agent包含3个核心组件:source,channel(信道),sink(接收器).3.1 source组件专用于收集日志的，它可以处理各种类型各种格式的日志数据，包

2015-01-04 10:52:06 852

原创 Impala Parquet 表分区表

1、Impala Parquet 表分区表#parquet表[hadoop02:21000] > create table parquet_ex_sms_event LIKE i_bil_hb_d.ex_sms_event stored as parquet; Query: create table parquet_ex_sms_event LIKE i_bil_hb_

2015-01-04 10:50:03 2980

原创 zookeeper介绍

1、ZooKeeper 1.1 它可以用来保证数据在zk集群之间数据的事务性一致 1.2 默认数据大小应该限制在2M以下,这样才能保证数据一致性2、如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点，要求各服务器之间系统时间要保持一致 2.2 拷贝zookeeper-3.4.5.tar.gz文件到/usr/local/下面,解

2015-01-04 10:48:37 679

原创 zk集群搭建搭建

zk集群搭建http://apache.fayea.com/apache-mirror/zookeeper/1、解压tar -zxvf zookeeper-3.4.6.tar.gz 2、复制示例文件cp /usr/local/zookeeper-3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper-3.4.6/conf/zoo.c

2015-01-04 10:46:43 1696

原创 hbaes实战

1、HBase 的数据模型(NoSQL系列数据库)1.1 表(table)，是存储管理数据的1.2 行键(row key),类似于mysql中的主键行键是HBase天然自带的。1.3 列族(column family)，列的集合 HBase是需要在定义表时指定的，列是在插入记录时动态增加的。 HBase表中的数据，每个列族单独一个文件1.4 时间

2015-01-04 10:45:39 879

原创 hbase完全分布模式的安装

1、hbase的分布模式1.1 在itr-mastertest01上解压缩[root@itr-mastertest01 installpackage]# tar -zxvf hbase-0.98.6.1-hadoop2-bin.tar.gz -C /usr/local/[root@itr-mastertest01 local]# mv hbase-0.98.6.1-hadoop2 hb

2015-01-04 10:43:39 481

原创 hive基础入门

1.Hive 在hadoop属于数据仓库的角色，能够管理hadoop中的角色，同时可以查询hadoop中的数据. Hive本质上讲他是一个sql解析引擎，hive可以把sql查询转换为MapReduce中的job来运行. Hive有一套映射工具,可以把sql转换为MapReduce中的Job，可以把sql中的表字段转换为HDFS中的文件(夹),以及文件中的

2015-01-04 10:42:34 1245

原创 hive的安装+msyql远程元数据库+hive的进阶优化

1、安装mysql-5.5(1)、rpm包安装mysql[root@itr-mastertest01 installpackage]# scp MySQL-client-5.5.40-1.linux2.6.x86_64.rpm MySQL-server-5.5.40-1.linux2.6.x86_64.rpm itr-mastertest02:/usr/local/[root@itr-

2015-01-04 10:40:57 819

原创 docker的使用

QQ群讨论：288396468(hadoop,spark,docker,hive,hbase,zk,java，scala等等)说明：这样的资源会在群共享中，以及hadoop实战调优等等，spark的基础到实战，hive等等，docker最近在整理！CentOS6对于CentOS6，可以使用EPEL库安装Docker，命令如下$ sudo yum install http

2015-01-04 10:38:45 506

原创 hadoop-2.4.0的Federation搭建

hadoop-2.4.0 Federation的搭建注明：前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本！大数据讨论群：288396468ns1的namenode：itr-mastertest01ns2的namenode：itr-mastertest02datanode：itr-nodetest01,itr-nodete

2015-01-04 10:34:46 438

原创 hadoop-2.5.0-cdh5.2.0伪分布模式搭建

hadoop-2.5.0-cdh5.2.0伪分布模式搭建注明：前提是自己已经编译好的hadoop版本或者cloudrea公司的cdh版本！大数据讨论群：2883964681、 core-site.xmlfs.defaultFShdfs://itr-mastertest01:9000hadoop.tmp.dir/usr/

2015-01-04 10:31:47 665

原创编译spark：[thriftServer.sh属于测试阶段 hive-0.13.1]

编译spark：[thriftServer.sh属于测试阶段 hive-0.13.1]说明：目前已经发布了1.2版本此文至合适安装参考，不用自己编译了vi sql/hive/pom.xml 支持读取parquet com.twitter parquet-hive-bundle 1.5.0

2015-01-04 10:30:42 1010

原创 spark1.1的部署、sparksql CLI、sparksql-jdbc运用

SparkSql实际运用：在spark0.9.x中不支持jdbc操作，spark1.1会加入jdbc支持版本说明：spark-1.1.0+scala-2.10.4+hive-0.12.0注意：版本不匹配可能出现各种不同的问题，可能出现不能配合工作，或者运算结果不对的情况！QQ群讨论：288396468spark1.1的发布正式版：2014/9/111、增加s

2015-01-04 10:29:49 823

sparkjvm的专栏

原创博客搬家到个人推文

原创 Cloudera-manager-installaction

原创 HDFS NFS Gateway

原创 Centos安装Ganglia

原创 hadoop2.4.0 [自动HA]搭建

原创 tachyon的编译

原创 ssh批量分发数据

原创 HDFS benchmark 基准测试

原创安装linux系统后的基础优化

原创 scala基础语法-隐式转换,隐式类

原创 scala基础语法-集合

原创 scala基础语法-match模式匹配

原创 scala基础语法-包作用域

原创 scala基础语法-类定义

原创 scala基础语法-类定义

原创 scala基础语法

原创 scala基础语法-抽象类

原创 Linux6.5基于LVM的安装

原创 install ganglia[ubuntu]

原创 sqoop基本使用

原创 flume安装使用

原创 Impala Parquet 表分区表

原创 zookeeper介绍

原创 zk集群搭建搭建

原创 hbaes实战

原创 hbase完全分布模式的安装

原创 hive基础入门

原创 hive的安装+msyql远程元数据库+hive的进阶优化

原创 docker的使用

原创 hadoop-2.4.0的Federation搭建

原创 hadoop-2.5.0-cdh5.2.0伪分布模式搭建

原创编译spark：[thriftServer.sh属于测试阶段 hive-0.13.1]

原创 spark1.1的部署、sparksql CLI、sparksql-jdbc运用

空空如也

空空如也