自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Java NIO 源码阅读笔记(一)

java.nio 包描述nio作为最顶层包,定义了Buffers相关的类。 Buffers:提供了缓存数据的功能,贯穿于整个NIO API中。NIO API的四个主要抽象包:Buffers:数据容器Charsets: 涉及到编码解码,因为序列化字符需要在Unicode编码相互转化Channels : 对应着每个IO通道,例如文件啊,网络io等等的Selectors: 和Channels结合

2016-01-21 15:04:11 943

原创 maven私服-详细部署搭建笔记

因为经常需要自行编译,每次从maven下载依赖都是一件很头疼的事情,而且不同的网络环境速度也不一样,因此在自己的笔记本(windows 64位)上自行搭建一个nexus oss maven仓库,是一件很必要的事情,本文记录了我搭建全部过程,以及遇到的全部问题:下载http://www.sonatype.org/nexus/ nexus-2.11.4-01-bundle.tar.gz 注意下载bu

2015-09-17 13:46:23 9039 3

原创 Apache Zepplin 安装详解

Apache Zepplin 现在还是一个孵化项目,具体可以查看网站:Zepplin环境准备安装之前,请确认已经具有如下环境:Java 1.7 Maven Git NPM 如果没有的话可以使用yum进行安装:yum install -y git maven npm其中npm是一个NodeJS包管理和分发工具,在编译Zepplin的时候需要使用npm下载安装一些工具。代理设置在代理环境下,需要对npm

2015-09-16 10:45:03 1445

原创 Spark编程注意事项

SimpleDateFormat我们使用spark做数据处理最频繁使用的就是simpleDateFormat来转化日期格式,在实践中发现,sdf总是莫名其妙的出现错误,例如:“java.lang.NumberFormatException: For input string: “””,而且有时候出现错误的记录个数都不一样。后来通过查阅SimpleDateFormat有这么一段内容:Date form

2015-08-31 13:38:50 1650

原创 Spark任务提交jar包依赖解决方案

通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。 下面有三个解决方法:方法一:spark-submit –jars根据spark官网,在提交任务的时候指定–jars,用逗号分开。这样做的缺点是每次都要制定jar包,而且多的时候容易乱。或者不用jars也可使用

2015-08-28 16:40:40 48368 6

原创 Hue3.9 安装教程:华丽的Spark,Hadoop UI

因网上没有一篇教程可以完全参照安装成功,我将我安装过程中遇到的问题集结起来,以及其他教程的精华部分整理好,内容如下:Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如

2015-08-20 17:17:28 9558 2

原创 VisualVM远程监控spark hadoop相关JVM情况配置

首先在${JAVA_HOME}/bin下建立文件jstatd.all.policy,键入如下内容:(注意要修改成你本机的java路径)grant codebase "file:/opt/jdk1.7/lib/tools.jar"{ permission java.security.AllPermission;};2.接下来通过jstatd来启动RMI服务: nohup jstatd -J-D

2015-08-11 16:02:05 1873

原创 Git 开发环境、服务器搭建以及常用操作

当项目需要多人协作时,多个人同时对一个项目进行修改,会带来各种各样的问题,有了Git,将会带来极大的便利,网上找了很多git的资料,结合我在项目中的实践,将我所学习到的内容记录下来,有些东西忘了还可以翻来看看。至于为什么选择自己搭建git服务器,主要原因是不希望一些重要代码公开。搭建环境git远程仓库系统:centos6.6 开发环境:windows8.1 + idea14.1.3 因此教程基于

2015-06-24 11:27:15 1181

原创 spark streaming 错误集锦

问题1:No output streams registered, so nothing to execute解决原因:没有触发DStream需要的aciton 解决方法:使用以下方法之一触发:print()foreachRDD()saveAsObjectFiles()saveAsTextFiles()saveAsHadoopFiles()

2015-05-27 12:39:47 8050

原创 sealed trait Scala学习笔记-面向对象篇

被sealed 声明的 trait仅能被同一文件的的类继承。 除了这个,我们通常将sealed用于枚举中,因为编译器在编译的时候知道这个trait被哪些类继承过,因此我们在match时对sealed trait进行case 的时候,如果你没有判断全部编译器在编译时就会报错。下面举例:在Person.class文件中:sealed trait Personcase class Teacher(n

2015-05-24 21:00:52 5578

原创 apply方法 Scala学习笔记-面向对象篇

刚入门scala时,发现scalal中很少使用new来产生对象,比如我们在使用Array的时候:val array:Array[Int] = Array(1,2,3,4,5,6,7,8,9)你会发现,Array[Int]对象已经莫名其妙的创建好了,这与java是有较大差别的,之所以可以这样创建,是因为scala中存在apply这个方法。我们先创建一个Test对象,为他声明一个apply方法:clas

2015-05-23 14:48:07 538

原创 Tachyon0.6.4+Spark1.3+hadoop2.6.0 配置教程详解

前言本文在安装前已经配置好了spark1.3和hadoop2.6,因项目需求需要搭建tachyon,但是搭建过程中遇到了很多的问题,写下本文用来记录这一路上所踩过的坑单节点安装先说单点,单点搞定,集群就简单了 安装tachyon,官网(https://github.com/amplab/tachyon/releases)下载了最新版本的二进制包,然后按照官方的教程一步一步来,首先是配置local(

2015-05-20 11:36:35 2131 1

原创 HBase unable to create new native thread 错误解决方法

好多次向Hbase插入数据的时候(三台节点,一次性插入百万条数据),时不时的会发生:java.lang.OutOfMemoryError: unable to create new native thread内存不够了?但是我一看不对啊,内存够啊。那到底是什么原因呢? 后来查了一下是因为线程开启过多,超过限制了,至于受哪些限制大家可以参考下面一篇文章,写的非常好: http://jzhihui

2015-05-06 17:42:37 5813 2

原创 闭包 Scala学习笔记-面向对象篇

以前一直不知道什么叫闭包,网上找了半天也没明白,只知道闭包的定义: 代码+非局部变量 = 闭包代码好理解,那什么时非局部变量呢? 首先我们定义一个种树的方法:def plantATree(treeName:String)={ var high= 0 val taller(meter:Int)={ high += meter println("大家好,我是"+tree

2015-05-06 17:10:07 544

原创 mysql 错误解决 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)

环境:centos6.6 mysql:5.5.39 解决问题步骤: 1.在mysql关闭的情况下:/etc/init.d/mysql start --skip-grant-tables2.接下来直接连接mysql,进入mysql命令行mysql -u root mysqlmysql>UPDATE user SET Password=PASSWORD('123456') where USER='

2015-04-22 10:12:49 13215

原创 sbt 简介 配置 加速 问题解决

本文专治: 1.国内“复杂”的网络环境,下载太慢 2.在代理环境下update出错 3.You probably access the destination server through a proxy server that is not well configured其实最好的解决方法是搭建自己的nexus私服,即快即剩网速,请查看我的另一博客 nexus私服搭建详解sbt结构简介sb

2015-04-21 13:50:50 19042

原创 Spark 操作 HBase 详解 spark1.4 hbase1.0

引言Apache HBase v1.0 发布了,这是 HBase 一个主要的里程碑。 值得我们注意的是,hbase1.0推出了全新的 API 以及重新组织客户端 API,被标注deprecated的api将于2.0版本去除。本文内容大部分基于Hbase源码官方文档及网络博客 User API Reference HBase Refguide 甘道夫 所有代码基于spark1.3、hbase

2015-04-17 17:35:15 3939

原创 Ganglia CentOS yum安装配置

Ganglia安装架构简介: Ganglia监控套件包括三个主要部分:gmond,gmetad,和网页接口(ganlia-web) gmond:是一个守护进程,他运行在每一个需要监测的节点上,收集监测统计 gmetad:也是一个守护进程,他定期检查gmonds,从那里拉取数据,并将他们的指标存储在RRD存储引擎中。他可以查询多个集群并聚合指标。他也被用于生成用户界面的w

2015-04-14 17:33:55 2424

原创 Redis on spark java.io.NotSerializableException

在使用spark streaming 处理数据后,将数据存入redis中,但是出现了为序列化问题,如下图所示:问题代码如下:val ssc = new StreamingContext(conf,Seconds(args(2).toInt))//.....//.....//.....//建立一个Redis连接val redis = new RedisClient("master.hadoo

2015-04-11 13:00:06 4136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除