自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 kafka direct 跟receiver 方式接收数据的区别

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Write Ahe

2017-04-13 15:21:50 4801

翻译 kafka 生产者给消费者发送消息报 class kafka.common.LeaderNotAvailableException

今天在做项目时候发现这个问题,网友说是因为IP地址映射不同步问题造成,想起之前我的虚拟机是从别的地方拷贝过来的,咋整呢? 只需要把kafka服务关掉,然后把系统/tmp/kafka-log 删掉重新创建一下就好了

2017-04-13 11:49:32 964

转载 spark streamingcontext 一些注意点

有两种创建StreamingContext的方式:val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));StreamingContext,还可以使用已有的SparkContext来创建val sc

2017-04-12 17:14:24 1975

转载 spark coalesce和repartition的区别

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)1)、N<M。一般情况下N个分区有

2016-11-21 15:58:14 1637

原创 spark 启动模式

deploy mode,分为两种1、client模式:主要用于测试2、cluster模式:主要用于生产环境无论是standalone、yarn,都是分为这两种模式的standalone client、standalone clusteryarn client、yarn clusterstandalone模式下,基于spark的Master进程和Worke

2016-11-08 11:23:36 472

转载 一些重要的spark术语

Application            spark应用程序,说白了,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程Application Jar        这个就是把写好的spark工程,打包成一个jar包,其中包括了所有的第三方jar依赖包,比如java中,就用maven+asse

2016-11-08 11:22:40 397

转载 Linux的网卡由eth0变成了eth1,如何修复

使用wmware安装了linux,安装成功后,使用的网卡是eth0,没有eth1。但是用过一段时间后,不知道为什么eth0无法使用,系统却自动生成了eth1网卡,这可以使用ifconfig命令看的到。 [user@localhost ~]$ ifconfigeth1      Link encap:Ethernet  HWaddr 00:0C:29:A9:22:9D        

2016-11-08 11:16:57 260

转载 解决kafka Unrecognized VM option 'UseCompressedOops'问题

vi /usr/local/kafka/bin/kafka-run-class.shif [ -z "$KAFKA_JVM_PERFORMANCE_OPTS" ]; then  KAFKA_JVM_PERFORMANCE_OPTS="-server  -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:

2016-11-08 11:11:34 4599

转载 Hadoop安装完后,启动时报Error: JAVA_HOME is not set and could not be found

解决办法:        修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。        应当使用绝对路径。        export JAVA_HOME=$JAVA_HOME                   //错误,不能这么改              export JAVA_HOME=/usr/java/jdk1.6.0_45     

2016-11-08 11:08:22 1704

转载 MongoDB 极简实践入门

MongoDB 极简实践入门1. 为什么用MongoDB?传统的计算机应用大多使用关系型数据库来存储数据,比如大家可能熟悉的MySql, Sqlite等等,它的特点是数据以表格(table)的形式储存起来的。数据库由一张张排列整齐的表格构成,就好像一个Excel表单一样,每个表格会有若干列,比如一个学生信息表,可能包含学号、姓名、性别、入学年份、高考成绩、籍贯等等。而表格的每一排,则是

2016-11-08 11:03:18 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除