5 CODE男孩

尚未进行身份认证

你只是看起来很努力

等级
博文 397
排名 6k+

自定义 Spark application 监听器进行task异常处理 JAVA版

最近要截取sparkHistory里面application的运行日志,发现task级别的某些日志拿不到,后来想了个办法搞监听器,然后一点点学习,将经验记录下来。在spark程序中,task有失败重试机制(根据spark.task.maxFailures配置,默认是4次),当task执行失败时,并不会直接导致整个应用程序down掉,只有在重试了spark.task.maxFailures...

2019-02-15 16:25:12

impala故障(cdh5.15.1版本)

今天碰到一个很奇怪的问题,impala查询34亿条数据报错,不过多亏网上有神仙相助,少了一个插件,具体原因有待思考,,,问题是原创的,解决方案是大神提供的[cdh004:21000]>selectcount(*)fromimpala_100yi;Query:selectcount(*)fromimpala_100yiQuerysubmittedat:2019-...

2019-02-14 16:11:02

HIVE 动态分区的一个坑

HIVE动态分区的一个坑在hivesql中使用动态分区非常方便,也比较常用,但是在使用的过程中会带来一些问题,比如:在一段sql语句中我需要指定两个字段当做动态分区,一个字段的基数为7,另一个为4,这就是28个分区,我们的sql语句的最后一个job是一个仅有map阶段的任务,数据量大有4000个map,这种情况下map任务在往hive分区中写的时候,每个map几乎都要产生28个文件,这样就会...

2018-12-26 11:33:08

kudu锦集

https://blog.csdn.net/weixin_39478115/article/category/7275004

2018-12-13 18:29:39

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

这篇博客我们介绍基于StructuredStreaming进行实时流算子开发,并将结果输出到kafka中。   StructuredStreaming使用的数据类型是DataFrame和Dataset。   从Spark2.0开始,DataFrame和Dataset可以表示静态(有界数据),以及流式(无界数据)。与静态Dataset/DataFrame类似,用户可以使用公共入...

2018-09-30 14:33:24

【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录一、为何要有StructuredStreaming二、StructuredStreaming的特性1、结构化流式处理2、基于Event-Time聚合&延迟数据处理3、容错性StructuredStreaming是Spark新提出的一种实时流的框架,以前是SparkStreaming。那么这两者有什么区别呢,为什么有了SparkStreaming,还要提出S...

2018-09-30 14:31:38

高性能Spark作业基础:你必须知道的调优原则及建议

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作...

2018-08-31 11:58:08

impala与hive的比较以及impala的有缺点

 最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容)    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引...

2018-08-10 10:14:35

使用spring-boot-admin对spring-boot服务进行监控

原文:http://www.cnblogs.com/ityouknow/p/8440455.html SpringBootActuator提供了对单个SpringBoot的监控,信息包含:应用状态、内存、线程、堆栈等等,比较全面的监控了SpringBoot应用的整个生命周期。但是这样监控也有一些问题:第一,所有的监控都需要调用固定的接口来查看,如果全面查看应用状态需要调用很多接...

2018-07-20 10:41:14

spark streaming 广播变量的测试

最近写的一个流式的程序需要从redis中获取变量信息,并广播,其中redis里面的信息是变动的,要求广播变量也要跟着改变,下面是测试代码:valdStream=KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe[String,String](topic...

2018-07-16 11:07:52

Spark运行架构(Good)

转自与https://note.youdao.com/share/?id=7fc41e362e86a863a84e787573433a76&type=note#/1、 Spark运行架构1.1 术语定义lApplication:SparkApplication的概念和HadoopMapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集...

2018-07-06 14:23:04

Spark2.3.0 结构化流 进行streaming+kafka的可操作算子流

工作上正在进行Streaming算子的研究学习,需要做到在流的基础上,通过kafka接收数据到中间若干的计算算子,再到最后的输出。开始使用传统的streaming+kafka,但由于无法返回后续使用的dataset,只能放弃,后来大牛提出永spark的结构化流处理,于是经过参考文档资料编写了一个可以进行过程处理的streaming处理流程。(只有与主题相关的代码,其余设计工作的没贴,看看实现思...

2018-07-03 11:27:07

spring-sparkstreaming-kafka10集成实现以及可能出现的部分问题(DirectKafkaInputDStream 无法序列化)

本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端,由于老的0.8版本无法支持kerberos权限校验,需要研究下spark-streaming-kafka-0-10的源码实现以及系统架...

2018-07-02 10:43:24

java8下spark-streaming结合kafka编程(spark 2.3 kafka 0.10)

前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark2.0.0,kafka0.10。2.引入maven包 网上找了一些结合的例子,但是跟我当前版本不一样,所以根本就成功不了,所以探究了下,...

2018-06-28 14:23:11

java8实现spark streaming的wordcount

概念这里就不说了,从案例开始,惯例,hellowrod,哦不,wordcount。 要计算从一个监听TCPsocket的数据服务器接收到的文本数据(textdata)中的字数。 主体代码部分跟spark相差不大,毕竟DStream是RDD产生的模板(或者说类)。1.导入了SparkStreaming类<dependency><groupId&gt...

2018-06-28 14:17:25

Streaming学习

Streaming官方文档

2018-06-28 14:16:53

kafka初探 版本0.10 java编程

之前对kafka的了解其实仅限于知道它是一个分布式消息系统,这次详细了解了下,知道了一些关键概念(topic主题、broker服务、producers消息发布者、consumer消息订阅者消费者),具体网上一大堆,这里不赘述,直接开始代码。1.引入包<dependency><groupId>org.apache.kafka</groupId&...

2018-06-28 14:13:27

Influxdb原理详解

本文属于《InfluxDB系列教程》文章系列,该系列共包括以下18部分:InfluxDB系列学习教程目录InfluxDB学习之InfluxDB的安装和简介InfluxDB学习之InfluxDB的基本概念InfluxDB学习之InfluxDB的基本操作InfluxDB学习之InfluxDB的HTTPAPI写入操作InfluxDB学习之InfluxDB数据保留策略(RetentionPolic...

2018-06-27 08:57:52

基于scala的OpenTSDB的查询(参考JAVA版的OpenTSDB API)

OpenTSDB提供三种方式的读写操作:telnet、http、post,但官方并没提供JAVA版的API。      多亏有开源贡献者“shifeng258”,他用java编写了 opentsdb-client ,才使得我们能对openTSDB的读写操作进行封装,下面是JAVA版参考资料https://my.oschina.net/HuQingmiao/blog/701145而我因项目原因,用的...

2018-05-18 17:00:31

OpenTSDB 查询示例

构造数据开启本地安装的opentsdb服务,首先构造一段数据,一共8个点,插入OpenTSDB,代码如下:#coding:utf-8importrequestspayload={"metric":"sys.cpu.data","timestamp":'1490586540',"value":'29',"tags":{...

2018-05-16 17:44:01
奖章
  • Github
    Github
    绑定github第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!