han3ying1jun8-CSDN博客

原创 spark参数设置

//設置sparkconf參數 val sparkConf = new SparkConf() //.setAppName("DirectKafka").set("spark.task.maxFailures", "1") sparkConf.set("spark.rpc.askTimeout", "1200") //设置20分钟 //spark.network.ti...

2017-10-30 15:12:28 1211

这里说一下spark源码的编译，可以修改一些源码，进行编译，这里我们修改一下spark-shell启动时输出消息的代码，这地方不用多说，使用 idea导入spark官网下载的spark1.6源码，然后修改，回到spark源码解压目录，这里首先配置maven，jdk等环境变量。[code="java"]./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version...

2017-08-09 10:11:36 701

scala调用api操作elasticsearch时long类型问题解决

在scala写spark程序的时候，为了方便控制，会调用java的api进行操作elasticsearch,这时候，需要一个map，接收具体的字段，这地方有会一个问题，就是接受的这个map必须是AnyRef类型的，比如我们需要存入一个long类型的值，比如时间是个long，那么直接写入就会有问题，因为scala里面AnyRef不包含数值类型，而是属于AnyVal类型。遇到这种情况，我们使用下面的方...

2017-07-27 17:34:28 820

linux解决软件托盘不显示问题

ubuntu利用了crossover安装了qq，需要解决乱码问题把win7中的宋体文件拷贝到/opt/cxoffice/support/apps.com.qq.im/drive_c/windows/Fonts里面去，重启，解决了乱码问题。还有一个问题就是最小化后托盘不显示，找不到qq了，解决办法是[code="java"]sudo add-apt-repository ppa:time...

2017-07-19 00:49:16 1831

spark源码分析之SparkContext初始化一

基于standalone模式这里，我们主要关注最主要的2个地方的初始化，首先是TaskScheduler的创建初始化。[code="java"]// Create and start the scheduler val (sched, ts) = SparkContext.createTaskScheduler(this, master) _schedulerBacke...

2017-07-04 18:18:35 126

Akka的生命周期

首先定义一个类，继承Actor[code="java"]class akka001 extends Actor{ override def preStart() ={ println("this is preStart()") } def receive = LoggingReceive{ case "hello" => println("hello wo...

2017-07-04 09:52:33 220

akka简单入门例子

spark版本里面用到的就是akka通信，2.0版本已经不再使用akka了。这里写了一个简单的akka程序。首先定义2个消息类[code="java"]object MyRequest { var message:String=null}[/code][code="java"]object MyResponse { var message:String=null}[/...

2016-10-25 17:34:03 185

spark重要的几个算子

spark中有几个算子比较重要，开发中不是很常用，但很多算子的底层都是依靠这几个算子实现的，比如CombineByKey，像reduceByKey底层是combineByKey实现的。首先介绍combineByKey这个算子主要需要三个参数，第一个是对每个分区中每个key的第一个值进行初始化，也就是每个分区内，有多少个key就会执行多少次这个初始化[code="java"]object...

2016-08-21 17:52:19 139

elasticsearch与spark，hbase等jar包冲突导致报错问题

在原有的spark程序中，其中包含hhase,spark等，会出现jar包冲突导致有异常的问题，程序中都是使用maven。在异常中，包含nosuchmethod的异常错误信息，可以看出是guava版本与hadoop版本不一致导致，Hadoop中使用的是12版本，而es2.3.1默认使用18版本。这样才程序执行的时候使用的是12版本，会导致类中的方法找不到的异常。解决办法是，es的依赖不使用...

2016-07-19 21:52:01 439

spark实现hadoop中获取文件名的功能

hadoop1版本中提供了获取文件名的功能，就是在map阶段可以获取每一行记录属于哪个文件，可以得到这个文件名，代码如下：[code="java"]//获取文件名InputSplit inputSplit=(InputSplit)context.getInputSplit();String filename=((FileSplit)inputSplit).getPath().getName...

2016-02-19 17:37:01 438

linux的ntp服务器时间同步设置

时间同步这个需求在很多地方都有。比如安装cm和cdh的话，需要ntp时间同步，否则会出现红色警告这里主要是设置一台服务器作为主服务器，让其他机器同步这台机器的时间，而且是配置的本地时间，没有同步internet时间，因为很多时候服务器不能联网首先我们这里设置2台机器，主机器为192.168.5.102，另外一台为192.168.5.103首先设置主机器编辑/etc/ntp.co...

2015-12-01 22:00:25 360

flume+kafka+sparkstreaming搭建整合

主要是数据从flume进去kafka，然后交给sparkstreaming处理的流程本文依旧以单词计数例子为例首先，flume使用1.6版本，如果是1.6以下的话，没带有官方的kafkasink,需要自己实现，自己实现也不难实现，写一个自定义的sink，在里面方法调用kafka生产者代码，把数据发送到指定的kafka的broker的topic即可。此处使用1.6版本，直接使用kafka...

2015-11-22 00:03:57 212

flume整合sparkstreaming

这里写一个flume整合sparkstreaming的例子我这里使用scala ide和maven的方式spark用的1.2版本，scala是2.10版本，flume使用最新版的1.6整合的第一步，要加上flume的maven依赖[code="java"] org.apache.spark spark-streaming-flume_2.10 1.2.1...

2015-11-21 20:48:18 101

flume集群搭建

搭建一个flume集群，设置2个节点，如下图这样的集群[img]http://dl2.iteye.com/upload/attachment/0111/7129/d521584b-e8a6-32f4-8a09-b167c86a401d.png[/img]2个节点分别为192.168.5.220和192.168.5.221设置成这样的情景，第一个接受日志传过来的数据（这里使用配置lo...

2015-09-15 11:30:39 348

hadoop求最大值方法

hadoop求最大值问题，代码比求最值前N个要简单一些，因为直接使用LongWritable类型，不需要自定义hadoop对象进行比较，所以直接覆盖map和reduce方法，并且覆盖cleanup方法，这是在map和reduce都执行完成之后才会执行的方法，只需要把最大值写入即可[code="java"]public class MySuper { public static void m...

2015-03-26 22:53:51 766

hadoop处理前N个最值问题

例子为100W 条数据取出前十个最值（纯本人看完课程后的手写，没有参考网上，结果应该没问题的，也没找到标准答案写法。。）首先，由于值都是double，默认的排序方式是升序，这里面我们取得是降序，所以自定义hadoop对象，并实现WritableComparable接口，然后覆盖compareTo方法。[code="java"]class MySuperKey implements...

2015-03-26 22:48:32 159

hadoop处理手机流量小例子

最近一直在学习hadoop 这是一个简单的关于MapReduce的示例通过实现map和reduce2个函数完成操作首先定义一个自定义对象[code="java"]class MyWriterble implements Writable{ long UpPackNum; long DownPackNum; long UpPayLoad; long DownPayL...

2015-03-09 23:45:03 193

Oracle表中重复数据去重的方法

我们在项目中肯定会遇到一种情况就是表中没有主键有重复数据或者有主键但是部分字段有重复数据而我们需要过滤掉重复数据下面是一种解决方法[code="java"]delete from mytest ms where rowid in (select aa.rid from (select rowid as rid, ...

2014-08-22 21:08:08 860

关于plsql执行时异常想要继续执行的问题

在项目中我们会经常遇到用plsql写存储过程遍历游标往表里面插入数据的问题但是如果安装正常情况写的话如果中途有异常抛出那么就会不继续执行了但是还有种情况就是我们需要他继续插入不能插入抛出异常的记录下来不用影响后续的插入解决的办法是嵌套begin end; 把会有可能抛出异常的代码放到这个嵌套的begin end里面去[code="java"]declar...

2014-07-16 22:36:23 3946

oracle存储过程select into报错no_data_found异常处理

在写循环游标过程中，做一些操作就像select into 这种，当查到的是null值时就会报这个异常这个时候加NVL是不能解决问题的把查询的字段加上MAX这样的组函数就可以了这样就不会报错了select MAX（字母哥） into XXXok......

2014-06-26 22:40:28 1393

关于Oracle游标的一些项目中遇到的逻辑问题

今天在项目中看一个存储过程的时候，发现同事写的之前的有些逻辑错误，可能这个错误比较典型吧拿出来分享一下，不使用公司的数据库，所以在自己的机子上模拟了一下这个场景。OK首先，就是2个表，表temp1,包括id1,val1,2个字段，表temp2，包括id2,val2 2个字段。首先，情景大致是这样的，2个表的ID是有关联的，就是把temp2中包含的temp1的id的数据，...

2014-06-23 22:34:29 116

关于JNDI的一些使用说明

JNDI其实就是一个标准我们可以看成通过名称得到对象，用的比较多的就是配置数据源了。下面只是说配置数据源首先这些信息都能在tomcat官网上面查看文档就能看到JNDI的一些说明了（不过都是英文的）首先这样做的目的是在我们不使用第三方连接池时，我们直接创建一个工具类，通过配置的名称可以获取上下文对象，从而获取连接，代码在下面直接在context.xml配置下面代码[...

2014-06-10 23:26:43 148

一个常用的分组查看时间戳最大最小值的sql语句

发现这个语句在实际当中用的还是比较多的所以还是贴出来吧虽然是很简单的一个sql吧就是说一个表中每个id对应多个字段，比如XX编码，每一行数据都有时间戳字段，然后目的是按XX编码分组，筛选出时间戳最大最小值得问题，下面的例子当中就以最小值为例。由于在家没法连接项目中的数据库，就以自己本机的数据库写个例子吧先随便创建个事例表吧 [img]http://dl2.i...

2014-06-10 22:56:39 1286

原创关于java开发oracle分页及一些遇到的问题

首先对于java开发，oracle进行分页时，要有三层进行查询[code="java"]SELECT * FROM (SELECT T.*, ROWNUM RN FROM (SELECT * FROM text ORDER BY ts DESC) T WHERE ROWNUM < 20) WHERE RN >20[/code]首先...

2014-06-10 15:38:00 117

han3ying1jun8的博客