6 CODE男孩

尚未进行身份认证

我要认证

你只是看起来很努力

等级
TA的排名 6k+

在Java中更好的调用Python

写在前面在微服务架构大行其道的今天,对于将程序进行嵌套调用的做法其实并不可取,甚至显得有些愚蠢。当然,之所以要面对这个问题,或许是因为一些历史原因,或者仅仅是为了简单。恰好我在项目中就遇到了这个问题,需要在Java程序中调用Python程序。关于在Java中调用Python程序的实现,根据不同的用途可以使用多种不同的方法,在这里就将在Java中调用Python程序的方式做一个总结。直接通过...

2019-10-31 14:30:22

关于JedisCluster不支持Pipeline操作的解决方案

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/EndTheme_Xin/article/details/84623063一、背景业务需要,把redis单结点改为集群,在对代码进行测试的时候发现了,原本使用jedis的批量操作pipeline,到了集群的时候不可用了。报了org.sp...

2019-08-16 22:18:06

opentsdb添加kerberos认证

1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB...

2019-07-02 11:46:39

自定义 Spark application 监听器进行task异常处理 JAVA版

最近要截取sparkHistory里面application的运行日志,发现task级别的某些日志拿不到,后来想了个办法搞监听器,然后一点点学习,将经验记录下来。在spark程序中,task有失败重试机制(根据 spark.task.maxFailures 配置,默认是4次),当task执行失败时,并不会直接导致整个应用程序down掉,只有在重试了 spark.task.maxFailures ...

2019-02-15 16:25:12

impala故障(cdh5.15.1版本)

今天碰到一个很奇怪的问题,impala查询34亿条数据报错,不过多亏网上有神仙相助,少了一个插件,具体原因有待思考,,,问题是原创的,解决方案是大神提供的[cdh004:21000] > select count(*) from impala_100yi;Query: select count(*) from impala_100yiQuery submitted at: 2019-...

2019-02-14 16:11:02

kudu锦集

https://blog.csdn.net/weixin_39478115/article/category/7275004

2018-12-13 18:29:39

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

这篇博客我们介绍基于StructuredStreaming进行实时流算子开发,并将结果输出到kafka中。      StructuredStreaming使用的数据类型是DataFrame和Dataset。     从Spark 2.0开始,DataFrame和Dataset可以表示静态(有界数据),以及流式(无界数据)。与静态Dataset/ DataFrame类似,用户可以使用公共入...

2018-09-30 14:33:24

【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录一、为何要有StructuredStreaming二、StructuredStreaming的特性1、结构化流式处理2、基于Event-Time聚合&延迟数据处理3、容错性Structured Streaming是Spark新提出的一种实时流的框架,以前是Spark Streaming。那么这两者有什么区别呢,为什么有了Spark Streaming,还要提出S...

2018-09-30 14:31:38

高性能Spark作业基础:你必须知道的调优原则及建议

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作...

2018-08-31 11:58:08

impala与hive的比较以及impala的有缺点

 最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容)        Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引...

2018-08-10 10:14:35

使用spring-boot-admin对spring-boot服务进行监控

原文:http://www.cnblogs.com/ityouknow/p/8440455.html Spring Boot Actuator提供了对单个Spring Boot的监控,信息包含:应用状态、内存、线程、堆栈等等,比较全面的监控了Spring Boot应用的整个生命周期。但是这样监控也有一些问题:第一,所有的监控都需要调用固定的接口来查看,如果全面查看应用状态需要调用很多接...

2018-07-20 10:41:14

spark streaming 广播变量的测试

最近写的一个流式的程序需要从redis 中获取变量信息,并广播,其中redis里面的信息是变动的,要求广播变量也要跟着改变,下面是测试代码:val dStream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topic...

2018-07-16 11:07:52

Spark运行架构(Good)

转自与https://note.youdao.com/share/?id=7fc41e362e86a863a84e787573433a76&type=note#/1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集...

2018-07-06 14:23:04

Spark2.3.0 结构化流 进行streaming+kafka的可操作算子流

工作上正在进行Streaming算子的研究学习,需要做到在流的基础上,通过kafka接收数据到 中间若干的计算算子,再到最后的输出。开始使用传统的streaming+kafka,但由于无法返回后续使用的dataset,只能放弃, 后来大牛提出永spark的结构化流处理,于是经过参考文档资料编写了一个可以进行过程处理的streaming处理流程。(只有与主题相关的代码,其余设计工作的没贴,看看实现思...

2018-07-03 11:27:07

spring-sparkstreaming-kafka10集成实现以及可能出现的部分问题(DirectKafkaInputDStream 无法序列化)

本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端,由于老的0.8版本无法支持kerberos权限校验,需要研究下spark-streaming-kafka-0-10的源码实现以及系统架...

2018-07-02 10:43:24

java8下spark-streaming结合kafka编程(spark 2.3 kafka 0.10)

前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2.引入maven包 网上找了一些结合的例子,但是跟我当前版本不一样,所以根本就成功不了,所以探究了下,...

2018-06-28 14:23:11

java8实现spark streaming的wordcount

概念这里就不说了,从案例开始,惯例,hellowrod,哦不,wordcount。 要计算从一个监听 TCP socket 的数据服务器接收到的文本数据(text data)中的字数。 主体代码部分跟spark相差不大,毕竟DStream是RDD产生的模板(或者说类)。1.导入了 Spark Streaming 类 <dependency> <groupId&gt...

2018-06-28 14:17:25

Streaming学习

Streaming官方文档

2018-06-28 14:16:53

kafka初探 版本0.10 java编程

之前对kafka的了解其实仅限于知道它是一个分布式消息系统,这次详细了解了下,知道了一些关键概念(topic主题、broker服务、producers消息发布者、consumer消息订阅者消费者),具体网上一大堆,这里不赘述,直接开始代码。1.引入包 <dependency> <groupId>org.apache.kafka</groupId&...

2018-06-28 14:13:27

Influxdb原理详解

本文属于《InfluxDB系列教程》文章系列,该系列共包括以下 18 部分:InfluxDB系列学习教程目录InfluxDB学习之InfluxDB的安装和简介InfluxDB学习之InfluxDB的基本概念InfluxDB学习之InfluxDB的基本操作InfluxDB学习之InfluxDB的HTTP API写入操作InfluxDB学习之InfluxDB数据保留策略(Retention Polic...

2018-06-27 08:57:52

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!