7 han3ying1jun8

尚未进行身份认证

暂无相关描述

等级
TA的排名 250w+

spark参数设置

//設置sparkconf參數valsparkConf=newSparkConf()//.setAppName("DirectKafka").set("spark.task.maxFailures","1")sparkConf.set("spark.rpc.askTimeout","1200")//设置20分钟//spark.network.ti...

2017-10-30 15:12:28

修改并编译spark源码

这里说一下spark源码的编译,可以修改一些源码,进行编译,这里我们修改一下spark-shell启动时输出消息的代码,这地方不用多说,使用idea导入spark官网下载的spark1.6源码,然后修改,回到spark源码解压目录,这里首先配置maven,jdk等环境变量。[code="java"]./build/mvn-Pyarn-Phadoop-2.6-Dhadoop.version...

2017-08-09 10:11:36

scala调用api操作elasticsearch时long类型问题解决

在scala写spark程序的时候,为了方便控制,会调用java的api进行操作elasticsearch,这时候,需要一个map,接收具体的字段,这地方有会一个问题,就是接受的这个map必须是AnyRef类型的,比如我们需要存入一个long类型的值,比如时间是个long,那么直接写入就会有问题,因为scala里面AnyRef不包含数值类型,而是属于AnyVal类型。遇到这种情况,我们使用下面的方...

2017-07-27 17:34:28

linux解决软件托盘不显示问题

ubuntu利用了crossover安装了qq,需要解决乱码问题把win7中的宋体文件拷贝到/opt/cxoffice/support/apps.com.qq.im/drive_c/windows/Fonts里面去,重启,解决了乱码问题。还有一个问题就是最小化后托盘不显示,找不到qq了,解决办法是[code="java"]sudoadd-apt-repositoryppa:time...

2017-07-19 00:49:16

spark源码分析之SparkContext初始化一

基于standalone模式这里,我们主要关注最主要的2个地方的初始化,首先是TaskScheduler的创建初始化。[code="java"]//Createandstarttheschedulerval(sched,ts)=SparkContext.createTaskScheduler(this,master)_schedulerBacke...

2017-07-04 18:18:35

Akka的生命周期

首先定义一个类,继承Actor[code="java"]classakka001extendsActor{overridedefpreStart()={println("thisispreStart()")}defreceive=LoggingReceive{case"hello"=>println("hellowo...

2017-07-04 09:52:33

akka简单入门例子

spark版本里面用到的就是akka通信,2.0版本已经不再使用akka了。这里写了一个简单的akka程序。首先定义2个消息类[code="java"]objectMyRequest{varmessage:String=null}[/code][code="java"]objectMyResponse{varmessage:String=null}[/...

2016-10-25 17:34:03

spark重要的几个算子

spark中有几个算子比较重要,开发中不是很常用,但很多算子的底层都是依靠这几个算子实现的,比如CombineByKey,像reduceByKey底层是combineByKey实现的。首先介绍combineByKey这个算子主要需要三个参数,第一个是对每个分区中每个key的第一个值进行初始化,也就是每个分区内,有多少个key就会执行多少次这个初始化[code="java"]object...

2016-08-21 17:52:19

elasticsearch与spark,hbase等jar包冲突导致报错问题

在原有的spark程序中,其中包含hhase,spark等,会出现jar包冲突导致有异常的问题,程序中都是使用maven。在异常中,包含nosuchmethod的异常错误信息,可以看出是guava版本与hadoop版本不一致导致,Hadoop中使用的是12版本,而es2.3.1默认使用18版本。这样才程序执行的时候使用的是12版本,会导致类中的方法找不到的异常。解决办法是,es的依赖不使用...

2016-07-19 21:52:01

spark实现hadoop中获取文件名的功能

hadoop1版本中提供了获取文件名的功能,就是在map阶段可以获取每一行记录属于哪个文件,可以得到这个文件名,代码如下:[code="java"]//获取文件名InputSplitinputSplit=(InputSplit)context.getInputSplit();Stringfilename=((FileSplit)inputSplit).getPath().getName...

2016-02-19 17:37:01

linux的ntp服务器时间同步设置

时间同步这个需求在很多地方都有。比如安装cm和cdh的话,需要ntp时间同步,否则会出现红色警告这里主要是设置一台服务器作为主服务器,让其他机器同步这台机器的时间,而且是配置的本地时间,没有同步internet时间,因为很多时候服务器不能联网首先我们这里设置2台机器,主机器为192.168.5.102,另外一台为192.168.5.103首先设置主机器编辑/etc/ntp.co...

2015-12-01 22:00:25

flume+kafka+sparkstreaming搭建整合

主要是数据从flume进去kafka,然后交给sparkstreaming处理的流程本文依旧以单词计数例子为例首先,flume使用1.6版本,如果是1.6以下的话,没带有官方的kafkasink,需要自己实现,自己实现也不难实现,写一个自定义的sink,在里面方法调用kafka生产者代码,把数据发送到指定的kafka的broker的topic即可。此处使用1.6版本,直接使用kafka...

2015-11-22 00:03:57

flume整合sparkstreaming

这里写一个flume整合sparkstreaming的例子我这里使用scalaide和maven的方式spark用的1.2版本,scala是2.10版本,flume使用最新版的1.6整合的第一步,要加上flume的maven依赖[code="java"] org.apache.spark spark-streaming-flume_2.10 1.2.1...

2015-11-21 20:48:18

flume集群搭建

搭建一个flume集群,设置2个节点,如下图这样的集群[img]http://dl2.iteye.com/upload/attachment/0111/7129/d521584b-e8a6-32f4-8a09-b167c86a401d.png[/img]2个节点分别为192.168.5.220和192.168.5.221设置成这样的情景,第一个接受日志传过来的数据(这里使用配置lo...

2015-09-15 11:30:39

hadoop求最大值方法

hadoop求最大值问题,代码比求最值前N个要简单一些,因为直接使用LongWritable类型,不需要自定义hadoop对象进行比较,所以直接覆盖map和reduce方法,并且覆盖cleanup方法,这是在map和reduce都执行完成之后才会执行的方法,只需要把最大值写入即可[code="java"]publicclassMySuper{ publicstaticvoidm...

2015-03-26 22:53:51

hadoop处理前N个最值问题

例子为100W条数据取出前十个最值(纯本人看完课程后的手写,没有参考网上,结果应该没问题的,也没找到标准答案写法。。)首先,由于值都是double,默认的排序方式是升序,这里面我们取得是降序,所以自定义hadoop对象,并实现WritableComparable接口,然后覆盖compareTo方法。[code="java"]classMySuperKeyimplements...

2015-03-26 22:48:32

hadoop处理手机流量小例子

最近一直在学习hadoop这是一个简单的关于MapReduce的示例通过实现map和reduce2个函数完成操作首先定义一个自定义对象[code="java"]classMyWriterbleimplementsWritable{ longUpPackNum; longDownPackNum; longUpPayLoad; longDownPayL...

2015-03-09 23:45:03

Oracle表中重复数据去重的方法

我们在项目中肯定会遇到一种情况就是表中没有主键有重复数据或者有主键但是部分字段有重复数据而我们需要过滤掉重复数据下面是一种解决方法[code="java"]deletefrommytestmswhererowidin(selectaa.ridfrom(selectrowidasrid,...

2014-08-22 21:08:08

关于plsql执行时异常想要继续执行的问题

在项目中我们会经常遇到用plsql写存储过程遍历游标往表里面插入数据的问题但是如果安装正常情况写的话如果中途有异常抛出那么就会不继续执行了但是还有种情况就是我们需要他继续插入不能插入抛出异常的记录下来不用影响后续的插入解决的办法是嵌套beginend;把会有可能抛出异常的代码放到这个嵌套的beginend里面去[code="java"]declar...

2014-07-16 22:36:23

oracle存储过程select into报错no_data_found异常处理

在写循环游标过程中,做一些操作就像selectinto这种,当查到的是null值时就会报这个异常这个时候加NVL是不能解决问题的把查询的字段加上MAX这样的组函数就可以了这样就不会报错了selectMAX(字母哥)intoXXXok......

2014-06-26 22:40:28
勋章 我的勋章
    暂无奖章