amanikong-CSDN博客

转载 kafka direct 跟receiver 方式接收数据的区别

Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahe

2017-04-13 15:21:50 4801

翻译 kafka 生产者给消费者发送消息报 class kafka.common.LeaderNotAvailableException

今天在做项目时候发现这个问题，网友说是因为IP地址映射不同步问题造成，想起之前我的虚拟机是从别的地方拷贝过来的，咋整呢？只需要把kafka服务关掉，然后把系统/tmp/kafka-log 删掉重新创建一下就好了

2017-04-13 11:49:32 964

转载 spark streamingcontext 一些注意点

有两种创建StreamingContext的方式：val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));StreamingContext，还可以使用已有的SparkContext来创建val sc

2017-04-12 17:14:24 1975

转载 spark coalesce和repartition的区别

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，（假设RDD有N个分区，需要重新划分成M个分区）1）、N<M。一般情况下N个分区有

2016-11-21 15:58:14 1637

原创 spark 启动模式

deploy mode，分为两种1、client模式：主要用于测试2、cluster模式：主要用于生产环境无论是standalone、yarn，都是分为这两种模式的standalone client、standalone clusteryarn client、yarn clusterstandalone模式下，基于spark的Master进程和Worke

2016-11-08 11:23:36 472

转载一些重要的spark术语

Application spark应用程序，说白了，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程Application Jar 这个就是把写好的spark工程，打包成一个jar包，其中包括了所有的第三方jar依赖包，比如java中，就用maven+asse

2016-11-08 11:22:40 397

转载 Linux的网卡由eth0变成了eth1，如何修复

使用wmware安装了linux，安装成功后，使用的网卡是eth0，没有eth1。但是用过一段时间后，不知道为什么eth0无法使用，系统却自动生成了eth1网卡，这可以使用ifconfig命令看的到。 [user@localhost ~]$ ifconfigeth1 Link encap:Ethernet HWaddr 00:0C:29:A9:22:9D

2016-11-08 11:16:57 260

转载解决kafka Unrecognized VM option 'UseCompressedOops'问题

vi /usr/local/kafka/bin/kafka-run-class.shif [ -z "$KAFKA_JVM_PERFORMANCE_OPTS" ]; then KAFKA_JVM_PERFORMANCE_OPTS="-server -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:

2016-11-08 11:11:34 4599

转载 Hadoop安装完后，启动时报Error: JAVA_HOME is not set and could not be found

解决办法：修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。应当使用绝对路径。 export JAVA_HOME=$JAVA_HOME //错误，不能这么改 export JAVA_HOME=/usr/java/jdk1.6.0_45

2016-11-08 11:08:22 1704

转载 MongoDB 极简实践入门

MongoDB 极简实践入门1. 为什么用MongoDB？传统的计算机应用大多使用关系型数据库来存储数据，比如大家可能熟悉的MySql, Sqlite等等，它的特点是数据以表格(table)的形式储存起来的。数据库由一张张排列整齐的表格构成，就好像一个Excel表单一样，每个表格会有若干列，比如一个学生信息表，可能包含学号、姓名、性别、入学年份、高考成绩、籍贯等等。而表格的每一排，则是

2016-11-08 11:03:18 329

qq_29651795的博客