无名氏0428-CSDN博客

原创 ES5 安装

参考官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/5.0/zip-targz.html1、下载并解压wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.0.1.zipsha1sum elasticsearch-

2016-11-20 15:24:30 2948

原创 Windows AD域搭建及Linux加入域

实验环境：VMwindowsServer 2012 GUI 192.168.137.100centos6.8 192.168.137.1011、使用VM创建虚拟机，并设置静态IP 使用NAT方式 1）设置Virtual NetWork Editor 需要注意将Use lo

2016-11-20 12:18:20 40470

原创 Nginx 负载均衡

1、实验环境windows ：218.193.154.155 nginxlenovo2 ：218.193.154.148 tomcatlenovo3 ：218.193.154.152 tomcat2、简单的负载均衡小例子：#Nginx所有用户和组，window下不指定#user nobody;#工作的子进程数量（通常等于CPU

2016-11-17 22:24:54 573

原创 Nutch + Hbase

本文主要讲解内容包括：ant及ivy的搭建、Nutch + Hbase搭建1、ant及ivy的搭建1-1）ant下载地址http://ant.apache.org/bindownload.cgi1-2）环境变量配置，修改linux /etc/profile文件内容，添加如下：export ANT_HOME=/usr/antexport PATH=$ANT_HOME/b

2016-11-17 16:29:13 2187

原创 Kafka + SparkStreaming + SparkSQL + MYSQL(DBCP)

本文主要讲解如何组合Kafka + SparkStreaming + MYSQL(DBCP)。1、Kafka 在Flume + Kafka + SparkStreaming 中已经给出如何将Kafka与SparkStreaming 集成2、使用DBCP维护connectionPool，对于内含思想请看ConnectionPool 这篇博文，DBCP代码如下：public cla

2016-11-16 19:51:59 4451

原创 Flume + Kafka + SparkStreaming(2.0)

本文阅读需具有一定Flume Kafka SparkStreaming的基础知识。1、Flume以及Kafka环境搭建。版本的选择，参考http://spark.apache.org/docs/latest/streaming-kafka-integration.html spark-streaming-kafka-0-8sp

2016-11-16 12:10:38 3676 1

原创集合中的操作符号

参考官网：Array介绍： http://docs.scala-lang.org/overviews/collections/arraysList介绍： http://docs.scala-lang.org/overviews/collections/concrete-immutable-collection-classesArray 在scala中是一类特殊的集合。另

2016-11-14 16:15:46 1910

转载 Spark性能优化总结

近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。经优化，使用160 vcores + 480G memory，一天的日志可在2.5小时内跑完，下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减，首要解决的是程序能够跑通大数据量，资源

2016-11-13 21:51:31 18932 4

原创 JVM时间显示问题

当前时区使用的CST +8时区，但是使用JVM输出时，默认确实使用的 GMT 即国际标准时区，亚洲等国家正好相差8个小时。这时候查看jvm源码可以发现System.out.println(TimeZone.getDefault()); 它是根据JAVA_HOME以及country调用本地方法实现的private static native String

2016-11-13 21:34:24 6584

原创 Spark 优化

官网地址：http://spark.apache.org/docs/latest/tuning.html1、引言提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等。效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资

2016-11-13 15:45:12 5496

原创 Spark-Streaming 程序监控

参考地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html官网中指出，spark中专门为SparkStreaming程序的监控设置了额外的途径，当使用StreamingContext时，在WEB UI中会出现一个"Streaming"的选项卡，在此选项卡内，统计的内容展

2016-11-12 17:08:23 4664

原创 Spark部署方式---Standalone

官方地址：http://spark.apache.org/docs/latest/spark-standalone.html1、搭建Standalone模式集群2、手动启动集群 2-1) 在master节点上启动Spark Master服务，./sbin/start-master.sh Master服务成功启动后，会打印出park://HO

2016-11-12 16:44:05 6842

原创 java与scala集合相互转换

参考scala官网： http://www.scala-lang.org/api/current/index.html#scala.collection.JavaConverters$可以得出如下的转换对应关系：scala.collection.Iterable Java.lang.Iterablescala.collection.Iterable java

2016-11-10 22:12:04 17854

原创 Spark2.0 监控界面报错javax.servlet.http.HttpServletRequest.isAsyncStarted()Z

1、环境 Spark2.0，Hadoop3.0，Intellj，Scala2.112、pom文件 org.apache.spark spark-core_2.11 2.0.0 org.apache.hadoop hadoop-common ${hadoop.common.version} org.apache.had

2016-11-08 22:09:14 8276 1

原创 Linux查看系统信息

1、查看cpu grep "model name" /proc/cpuinfo 或格式化输出 grep "model name" /proc/cpuinfo | cut -f2 -d:2、查看内存 grep MemTotal /proc/meminfo grep MemTotal /proc/meminfo | cut -f2 -d:3、lin

2016-11-08 19:20:47 427

原创 ConnectionPool

SparkStreaming中常用的操作之一就是将数据导出，例如，将数据结果发送到mysql数据库中。这时候很容易会犯一些错误，例如：dstream.foreachRDD { rdd => val connection = createNewConnection() // executed at the driver rdd.foreach { record => con

2016-11-08 15:27:56 1299

原创 WindowOperations

在SparkStreaming中提供了window操作，通过window操作，操作者可以对一个滑动的窗口内的数据进行转换操作，如下图所示：如上图所示，这个窗口每次在DStream上进行滑动，这里存在两个变量1、window length 窗口长度2、slid length 窗口滑动长度这里的长度均是以batchinterval为单位，因此以上两

2016-11-08 14:16:30 553

原创 Transform

Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream. Transform算子（以及变体transformWith）允许任意的RDD

2016-11-08 13:03:38 490

原创 UpdateByKey

1、DStream的transformation操作常用的tarnsformation算子如下： TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a f

2016-11-08 12:09:56 767

原创 SparkStreaming 自定义Receiver

1、参考官网地址 http://spark.apache.org/docs/latest/streaming-custom-receivers.html2、Spark 自定义Receiver SparkStreaming 能够接收任意类型的流式数据，不单单只是内建的Flume,Kafka,Kinesis,files,sockets等等。当然若要支持此种数据，则需要开发者自

2016-11-08 10:12:39 2648

原创 SparkStreaming socketTextStream

1、SparkStreaming programming-guide地址 http://spark.apache.org/docs/latest/streaming-programming-guide.html2、官网中给出SparkStreaming 中数据来源以及去向如下图所示可以看到Spark 支持 Kafka, Flume, Kinesis, or TC

2016-11-07 15:16:50 9700 2

原创 Maven-Centos 部署

1、nexus 下载地址 https://www.sonatype.com/download-oss-sonatype2、解压文件 tar -zxvf nexus.tar.gz3、添加用户 useradd nexus groupadd nexus 用户添加到组 usermod -a -G nexus nexus4、

2016-11-07 12:51:26 973

原创交换相邻法（2）

通过上篇文章可以看到，如果想要生成{1,2.....,n}的全排列，那么在生成的过程中我们需要将{1} {1,2} {1,2,3} ...... {1,2,3.....n}的排列进行保存。那么如何才能做到，排列覆盖当前排列而不必保留所有排列呢？Even 给出一种描述如下：生成{1,2,.....n}的排列算法从1,2,3，n开始（可移动：当数字指向方向上的相邻数字比该数字小时那么表

2015-10-30 10:38:10 954

原创生成全排列

交换相邻法： {1，2，......，n}想得到该集合的全排列，可通过获取{1,2,.....,n-1}的全排列，然后将n插入到n-1集合的全排列中，即可获取n的全排列。实现代码如下：import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class

2015-10-30 09:21:55 416

天道酬勤