奔奔强-CSDN博客

原创 Java NIO 源码阅读笔记(一)

java.nio 包描述nio作为最顶层包，定义了Buffers相关的类。 Buffers：提供了缓存数据的功能，贯穿于整个NIO API中。NIO API的四个主要抽象包：Buffers：数据容器Charsets: 涉及到编码解码，因为序列化字符需要在Unicode编码相互转化Channels : 对应着每个IO通道，例如文件啊，网络io等等的Selectors: 和Channels结合

2016-01-21 15:04:11 943

原创 maven私服-详细部署搭建笔记

因为经常需要自行编译，每次从maven下载依赖都是一件很头疼的事情，而且不同的网络环境速度也不一样，因此在自己的笔记本（windows 64位）上自行搭建一个nexus oss maven仓库，是一件很必要的事情，本文记录了我搭建全部过程，以及遇到的全部问题：下载http://www.sonatype.org/nexus/ nexus-2.11.4-01-bundle.tar.gz 注意下载bu

2015-09-17 13:46:23 9039 3

Apache Zepplin 现在还是一个孵化项目，具体可以查看网站：Zepplin环境准备安装之前，请确认已经具有如下环境：Java 1.7 Maven Git NPM 如果没有的话可以使用yum进行安装：yum install -y git maven npm其中npm是一个NodeJS包管理和分发工具，在编译Zepplin的时候需要使用npm下载安装一些工具。代理设置在代理环境下，需要对npm

2015-09-16 10:45:03 1445

原创 Spark编程注意事项

SimpleDateFormat我们使用spark做数据处理最频繁使用的就是simpleDateFormat来转化日期格式，在实践中发现，sdf总是莫名其妙的出现错误，例如：“java.lang.NumberFormatException: For input string: “””，而且有时候出现错误的记录个数都不一样。后来通过查阅SimpleDateFormat有这么一段内容：Date form

2015-08-31 13:38:50 1650

原创 Spark任务提交jar包依赖解决方案

通常我们将spark任务编写后打包成jar包，使用spark-submit进行提交，因为spark是分布式任务，如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。下面有三个解决方法：方法一：spark-submit –jars根据spark官网，在提交任务的时候指定–jars，用逗号分开。这样做的缺点是每次都要制定jar包，而且多的时候容易乱。或者不用jars也可使用

2015-08-28 16:40:40 48368 6

原创 Hue3.9 安装教程：华丽的Spark，Hadoop UI

因网上没有一篇教程可以完全参照安装成功，我将我安装过程中遇到的问题集结起来，以及其他教程的精华部分整理好，内容如下：Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如

2015-08-20 17:17:28 9558 2

原创 VisualVM远程监控spark hadoop相关JVM情况配置

首先在${JAVA_HOME}/bin下建立文件jstatd.all.policy，键入如下内容：(注意要修改成你本机的java路径)grant codebase "file:/opt/jdk1.7/lib/tools.jar"{ permission java.security.AllPermission;};2.接下来通过jstatd来启动RMI服务： nohup jstatd -J-D

2015-08-11 16:02:05 1873

原创 Git 开发环境、服务器搭建以及常用操作

当项目需要多人协作时，多个人同时对一个项目进行修改，会带来各种各样的问题，有了Git，将会带来极大的便利，网上找了很多git的资料，结合我在项目中的实践，将我所学习到的内容记录下来，有些东西忘了还可以翻来看看。至于为什么选择自己搭建git服务器，主要原因是不希望一些重要代码公开。搭建环境git远程仓库系统：centos6.6 开发环境：windows8.1 + idea14.1.3 因此教程基于

2015-06-24 11:27:15 1181

原创 spark streaming 错误集锦

问题1：No output streams registered, so nothing to execute解决原因：没有触发DStream需要的aciton 解决方法：使用以下方法之一触发：print()foreachRDD()saveAsObjectFiles()saveAsTextFiles()saveAsHadoopFiles()

2015-05-27 12:39:47 8050

原创 sealed trait Scala学习笔记-面向对象篇

被sealed 声明的 trait仅能被同一文件的的类继承。除了这个，我们通常将sealed用于枚举中，因为编译器在编译的时候知道这个trait被哪些类继承过，因此我们在match时对sealed trait进行case 的时候，如果你没有判断全部编译器在编译时就会报错。下面举例：在Person.class文件中：sealed trait Personcase class Teacher(n

2015-05-24 21:00:52 5578

原创 apply方法 Scala学习笔记-面向对象篇

刚入门scala时，发现scalal中很少使用new来产生对象，比如我们在使用Array的时候：val array:Array[Int] = Array(1,2,3,4,5,6,7,8,9)你会发现，Array[Int]对象已经莫名其妙的创建好了，这与java是有较大差别的，之所以可以这样创建，是因为scala中存在apply这个方法。我们先创建一个Test对象，为他声明一个apply方法:clas

2015-05-23 14:48:07 538

原创 Tachyon0.6.4+Spark1.3+hadoop2.6.0 配置教程详解

前言本文在安装前已经配置好了spark1.3和hadoop2.6，因项目需求需要搭建tachyon，但是搭建过程中遇到了很多的问题，写下本文用来记录这一路上所踩过的坑单节点安装先说单点，单点搞定，集群就简单了安装tachyon，官网（https://github.com/amplab/tachyon/releases）下载了最新版本的二进制包，然后按照官方的教程一步一步来，首先是配置local（

2015-05-20 11:36:35 2131 1

原创 HBase unable to create new native thread 错误解决方法

好多次向Hbase插入数据的时候（三台节点，一次性插入百万条数据），时不时的会发生：java.lang.OutOfMemoryError: unable to create new native thread内存不够了？但是我一看不对啊，内存够啊。那到底是什么原因呢？后来查了一下是因为线程开启过多，超过限制了，至于受哪些限制大家可以参考下面一篇文章，写的非常好： http://jzhihui

2015-05-06 17:42:37 5813 2

原创闭包 Scala学习笔记-面向对象篇

以前一直不知道什么叫闭包，网上找了半天也没明白，只知道闭包的定义：代码+非局部变量 = 闭包代码好理解，那什么时非局部变量呢？首先我们定义一个种树的方法：def plantATree(treeName:String)={ var high= 0 val taller(meter:Int)={ high += meter println("大家好，我是"+tree

2015-05-06 17:10:07 544

原创 mysql 错误解决 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)

环境：centos6.6 mysql：5.5.39 解决问题步骤： 1.在mysql关闭的情况下：/etc/init.d/mysql start --skip-grant-tables2.接下来直接连接mysql,进入mysql命令行mysql -u root mysqlmysql>UPDATE user SET Password=PASSWORD('123456') where USER='

2015-04-22 10:12:49 13215

原创 sbt 简介配置加速问题解决

本文专治： 1.国内“复杂”的网络环境，下载太慢 2.在代理环境下update出错 3.You probably access the destination server through a proxy server that is not well configured其实最好的解决方法是搭建自己的nexus私服，即快即剩网速，请查看我的另一博客 nexus私服搭建详解sbt结构简介sb

2015-04-21 13:50:50 19042

原创 Spark 操作 HBase 详解 spark1.4 hbase1.0

引言Apache HBase v1.0 发布了，这是 HBase 一个主要的里程碑。值得我们注意的是，hbase1.0推出了全新的 API 以及重新组织客户端 API，被标注deprecated的api将于2.0版本去除。本文内容大部分基于Hbase源码官方文档及网络博客 User API Reference HBase Refguide 甘道夫所有代码基于spark1.3、hbase

2015-04-17 17:35:15 3939

原创 Ganglia CentOS yum安装配置

Ganglia安装架构简介： Ganglia监控套件包括三个主要部分：gmond，gmetad，和网页接口（ganlia-web） gmond:是一个守护进程，他运行在每一个需要监测的节点上，收集监测统计 gmetad:也是一个守护进程，他定期检查gmonds，从那里拉取数据，并将他们的指标存储在RRD存储引擎中。他可以查询多个集群并聚合指标。他也被用于生成用户界面的w

2015-04-14 17:33:55 2424

原创 Redis on spark java.io.NotSerializableException

在使用spark streaming 处理数据后，将数据存入redis中，但是出现了为序列化问题，如下图所示：问题代码如下：val ssc = new StreamingContext(conf,Seconds(args(2).toInt))//.....//.....//.....//建立一个Redis连接val redis = new RedisClient("master.hadoo

2015-04-11 13:00:06 4136

wzq294328238的专栏