晚风中的自由-CSDN博客

原创 IDEA安装Gradle

Ant和Maven共享在Java市场上相当大的成功。ANT是在2000年发布了第一个版本的工具，它是基于程序编程思想的发展。后来，人们在 Apache-Ivy的帮助下，网络接受插件和依赖管理的能力有所提升。但主要缺点是使用XML作为一种格式来写构建脚本。XML是分层的，不利于程序的编程，而且当XML文件变大以后变得难以管理。Maven在2004年推出的，它比ANT有一个很大的改进。它改变了结构并且继续使用XML编写生成规范。Maven的依赖约定和能够通过网络下载依赖关系。Maven的主要好处是它的生命

2021-10-17 10:22:58 2615

转载 macbook安装redis

一、官网下载Redishttps://redis.io/download选择稳定版本解压redis-3.0.7.tar.gz，拷贝到任意目录执行解压命令tar -zxvf redis-6.2.5.tar.gz二、终端安装编译和安装跳转到解压目录，然后编译，安装 make安装后执行make install，基本安装完，配置都采用默认配置。启动rediscd 到redis解压目录下，执行 src/redis-server, 回车即启动。如图所示则启动成功。...

2021-10-01 21:51:43 799

转载 Java中List, Integer[], int[]的相互转换

import java.util.Arrays;import java.util.List;import java.util.stream.Collectors;public class Main { public static void main(String[] args) { int[] data = {4, 5, 3, 6, 2, 5, 1}; // int[] 转 List<Integer> List<Inte...

2021-03-20 21:26:32 301

原创 HashMap按key排序或按value排序的方法

HashMap的储存是没有顺序的,而是按照key的HashCode实现.// key=商品名称,value=价格,这里以这个例子实现按名称排序和按价格排序.Map store = new HashMap();store.put("iphone12", 6799);store.put("iphone12pro", 8499);store.put("macbookPro", 19499);store.put("ipadAir", 6999);store.put("watch6", 3199)

2021-03-20 21:01:04 7861

转载 Java容器学习-栈和队列

栈和队列是一种逻辑上的数据结构，栈，遵循先进后出的原则，在编译器中得到的应用较多，例如对于括号的匹配（这也是常见的算法题目），表达式的转换等，由于我们只关心栈顶元素，并不需要直接取到栈中间的元素，队列结构类似，只关心首尾元素，十分契合我们链表的特点。而原本java中是存在stack类的，但现在已经不推荐使用了，一般将Deque这个接口当作栈来使用，它实现的是一个双端队列。Deque作为栈使用，常用以下方法：push(E)，pop()，peek() ；Deque作为双端队列使用，常用以下方法：ad

2021-03-20 19:54:49 164

原创 JVM参数分类

基于jdk8的参数标准：- 开头，所有的HotSpot都支持非标准：-X 开头，特定版本HotSpot支持特定命令，每个JVM实现不同不稳定：-XX 开头，下个版本可能取消标准命令，比如java -version非标准，用命令 java -X 查看java -X -Xmixed 混合模式执行 (默认) -Xint 仅解释模式执行 -Xbootclasspath:<用 : 分隔的目录和 zip/jar .

2020-08-01 08:59:57 274

转载 JVM中的OopMap

调用栈里的引用类型数据是GC的根集合（root set）的重要组成部分；找出栈上的引用是GC的根枚举（root enumeration）中不可或缺的一环。JVM选择用什么方式会影响到GC的实现：如果JVM选择不记录任何这种类型的数据，那么它就无法区分内存里某个位置上的数据到底应该解读为引用类型还是整型还是别的什么。这种条件下，实现出来的GC就会是“保守式GC（conservative GC）”。在进行GC的时候，JVM开始从一些已知位置（例如说JVM栈）开始扫描内存，扫描的时候每看到一个数字就看看它

2020-07-18 20:59:50 2116 2

转载 Spark 自定义累加变量(Accmulator)AccumulatorParam

1、创建一个累加变量public <T> Accumulator<T> accumulator(T initialValue, AccumulatorParam<T> param)Create an Accumulator variable of a given type, which tasks can "add" values to using the += method. Only the drive

2020-06-21 19:40:56 717

转载 SparkJavaAPI例子

1、join 的使用将一组数据转化为RDD后，分别创造出两个PairRDD，然后再对两个PairRDD进行归约（即合并相同Key对应的Value），元素集合1: {(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)}元素集合2: {(1, A), (2, D), (3, I), (4, P), (5, Y)}集合1和集合2进行join:{(1, (1, A)), (2, (4, D)), (3, (9, I)), (4, (16, P)), (5, (25.

2020-06-20 21:12:39 462

转载 SparkConf和SparkContext

任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Scala： 1 2 3 4 valconf=newSparkConf().setMaster("master").setAppName("appName") val...

2020-06-13 19:28:41 2605 1

原创 macos安装vscode

下载官网https://code.visualstudio.com/Download选择 macos下载之后是个zip包，解压后是Visual Studio Code.app拖拽到应用程序，即完成安装打开VSCode之后的界面安装插件Code Runner是一款非常使用的插件，在使用VSCode编译时，有的时候需要执行某段代码，这个时候就需要用到Code Runner，Code Runner可以跑C/C++/JAVA/JS/PHP等编程语言。...

2020-05-13 01:23:18 25384

原创 macos安装nodejs

1、下载安装包下载地址：https://nodejs.org/zh-cn/download/由于是macos，所以选择macos安装包下载之后是pkg下载完成后，双击安装包，开始安装，一直点继续即可，安装路径默认为This package will install: • Node.js v12.16.3 to /usr/local/bin/node • npm v6.14.4 to /usr/local/bin/npmNode.js runtime表示运行环境np..

2020-05-13 01:04:37 4137

原创 BigDecimal(String)与BigDecimal(double)的区别

要把double转化为BigDecimal，可以用BigDecimal的构造方法得到BigDecimal类型的值BigDecimal构造函数有多种，其中2种常用的，把string和double作为构造器的参数，这2种有很大的区别（1）BigDecimal(Stringval)Translates the string representation of aBigDecimalin...

2020-05-01 22:42:34 1435

转载 BigDecimal.ROUND_HALF_XXX 的各种用法

BigDecimal.ROUND_HALF_XXX的各种用法

2020-05-01 18:05:56 985

转载 Hadoop 2.x常用端口及查看方法

https://www.cnblogs.com/jancco/p/4447756.html

2020-03-26 23:09:38 178

转载 Hdfs block数据块大小的设置规则

1.概述　　hadoop集群中文件的存储都是以块的形式存储在hdfs中。2.默认值　　从2.7.3版本开始block size的默认大小为128M，之前版本的默认值是64M.3.如何修改block块的大小？　　可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。　　注意：在修改HDFS的数据块大小时，首先停掉集群hadoop的运行进程，修改完毕...

2020-03-21 21:11:40 1330

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

摘要： 1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决　　 2.1数据倾斜原理 2.2 数据倾斜问题发现与解决 2...

2019-12-28 15:02:30 189

原创 Mac VMWare Fusion 通过镜像 ios 安装 centos 6.4 虚拟机

电脑已经安装 VMWare Fusion镜像：CentOS-6.4-i386-minimal.iso，32位 linux，minimal 是小安装包，功能少新建虚拟机；选择创建自定虚拟机；选择操作系统；选择新建虚拟磁盘选择自定义设置；选择存储目录；点击存储之后完成；完成；点击设置；找到 CD/DVD选择一个光盘或...

2019-12-10 00:36:39 755

原创企业大数据平台搭建（四）集群管理工具CM组件安装（下）

一、添加HBase添加服务选中服务，点击继续；节点角色分配；Master：bigdata-cdh02.ibeifeng.comRegionServer：bigdata-cdh[01-03].ibeifeng.com点击继续；hdfs根目录保持默认值；启用复制和启用编制索引勾选；点击继续；安装启动；点击继续；完成；...

2019-12-08 23:46:22 341

原创企业大数据平台搭建（三）集群管理工具CM组件安装

一、添加集群监控服务Cloudera Management Service进入主页，点击右上角的 “添加 Cloudera Management Service”安装在 bigdata-cdh01 主机，选中主机，点击 “确定”；点击继续；数据库设置，保持默认不变；点击测试连接；连接成功；需要记住数据库名称，用户名和密码；点击继续；不需要...

2019-12-08 20:45:08 410

原创企业大数据平台搭建（二）集群管理工具CM 5.3.x安装

一、下载文件和上传到主机安装方式：断网，rpm安装，yum本地源生产环境的集群要断网；rpm会自动安装到相应的目录，不用手动设置；rpm软件下载地址：http://archive.cloudera.com/cm5/需要下载的软件：必须软件：1）cm-5.3.6 bin安装文件，下载地址：http://archive.cloudera.com/cm5/installe...

2019-12-08 14:31:10 407

原创虚拟机设置免密登录

推荐看这篇文章SSH协议（从对称加密到非对称加密）https://blog.csdn.net/qq_41036232/article/details/102828564一、介绍使用密码登录，每次都必须输入密码。SSH还提供了公钥登录，可以省去输入密码的步骤。所谓"公钥登录"，原理很简单，就是用户将自己的公钥（id_rsa.pub）储存在远程主机上。登录的时候，远程主机会向...

2019-12-05 23:59:29 4405

原创 VMWare Fusion 克隆已有的虚拟机和设置为静态地址

VMWare Fusion 已经有虚拟机，要克隆一份作为新的虚拟机。被克隆的虚拟机不发生改变；1、关闭克隆的虚拟机；2、点击选择要克隆的虚拟机，右击选择“克隆虚拟机”按钮3、选择克隆虚拟机要安装存储的路径位置；（标签不填默认为名称）；点击存储；4、点击存储，可以看到正在克隆；5、克隆完成之后，如图可以看到新的虚拟机和源主机6、对于克隆虚拟机，由于硬件配...

2019-12-04 20:54:08 1408

原创 Oracle RAC原理

Oracle RAC原理

2019-12-01 21:26:44 170

原创企业大数据平台搭建（一）环境准备

一、Hadoop 三大发行版本1、apache原生版本；2、CDH1）CDH全称是：Cloudera’s Distribution Including Apache HadoopCDH；Cloudera 公司发行；在apache版本的基础上进行商业化；官网为：http://www.cloudera.com/；发布的版本仅支持64位操作系统；2）安装方式，通过tar...

2019-12-01 21:08:14 395

原创【Spark】Spark Stream 整合 Kafka（二）

一、集成的方式1、基于接收者方式；从kafka接收的数据，被放在spark执行器；然后stream处理数据；但在接收失败的情况下，可能会丢失数据；2、直接模式，没有接收者；二、基于接收者方式1、复制kafka依赖包cp /opt/modules/spark-1.3.0-src/external/kafka/target/spark-streaming-kafka_2.10-1...

2019-11-30 22:32:04 151

原创【Spark】Spark Stream 整合 Kafka（一）

一、Kafka 简介Kafka：高吞吐量的分布式消息系统，发布-订阅，分布式提交日志；特点：快，可扩展性，稳定性，分布式；Apache Kafka 是分布式发布-订阅消息系统。它最初由linkedin公司开发，之后成为Apache项目的一部分。Kafka是一种快速的、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。Apache Kafka 与传统消息系统相比，有...

2019-11-30 19:38:09 224

原创【Spark】Spark Stream 整合 Flume

官网教程：http://spark.apache.org/docs/1.3.0/streaming-flume-integration.html有两种集成方式：1、flume把数据推给stream2、stream从flume拉取数据基于方式1讲解Flume有3个组件：source -> channel -> sink (streaming)1、在fl...

2019-11-29 23:13:20 104

原创【Spark】Spark Stream 读取 HDFS 数据

从HDFS读取文本数据作为DStream准备数据，本地目录/opt/datas/sparkDatas 下有文件wc.txt 内容如下：hadoop spark streamingspark hdfs streamingspark启动hadoop的namenode 和 datanodesbin/hadoop-daemon.sh start namenodesbin/ha...

2019-11-27 23:49:40 1125

原创【Spark】Spark Stream 入门案例

官方案例：http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Stream Demo，从socket实时读取数据，进行实时处理首先检查有无安装 ncrpm -qa | grep nc如果没有则要先安装nc；下载：http://vault.centos.org/6.6/os/x86_...

2019-11-26 21:49:56 137

原创 rpm包的卸载与安装

1.rpm简介一种用于互联网下载包的打包及安装工具，它包含在某些Linux分发版中，它生成具有RPM扩展名的文件，RPM是RedHat Package Manager（RedHat软件包管理工具）的缩写，类似windows的setup.exe，这一文件格式名称虽然打上了RedHat的标志，但理念是通用的Linux的分发版本都有采用（suse,redhat, centos 等等），可以算是公认的...

2019-11-26 21:13:16 990

原创【Spark】Spark运行在YARN上

Spark on YARN步骤：1）客户端提交应用程序给resourcemanager；2）resourcemanager为应用分配 spark application master；3）sparkapplication master 向resourcemanager 申请资源 container，container可以用于运行executor4）resourcemanag...

2019-11-26 19:40:15 1120

原创【阿里云】阿里云ECS入门笔记

一、开通产品下完订单后，开通产品。选择操作系统和版本，这里选的是centos，6.9 64位。会验证手机号。二、进入控制台控制台地址：https://ecs.console.aliyun.com/开通产品后，要过1-5分钟才能看到实例；进入实例；可以看到实例，有2个ip地址，公有和私有三、重置密码选中实例，点击重置实例密码按要求填写密码...

2019-11-24 21:35:14 205

原创【Spark】使用spark-submit部署应用，Spark Application 运行的两种方式Client和Cluster

Spark为各种集群管理器提供了统一的工具来提交作业，这个工具是spark-submit。如果在调用spark-submit时除了脚本或JAR包的名字之外没有其他的参数，那么这个Spark应用只会在本地执行。当我们希望将应用提交到Spark独立集群上的时候，可以将集群的地址和希望启动的每个执行器进程的大小作为附加标记提供。--master标记指定要连接的集群URL；spark-su...

2019-11-24 17:52:35 680

原创【Spark】Spark Application 监控，HistoryServer历史服务器配置使用

一、增加配置1、spark-1.3.0-bin-2.5.0-cdh5.3.6/conf 目录下spark-env.sh文件修改；设置log文件放在 hdfs目录/user/spark/eventlogsSPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://hadoop-senior.ibeifeng.com:8020...

2019-11-23 21:15:52 791

原创【Spark】使用IDEA开发Spark Application以及打包测试

一、IDEA新建scala应用Create New Project选择scala，IDEA，点击next项目名称：sparkApp，选择JDK，选择Scala SDK，点击finish等待加载项目，项目目录结构如下打开file下的 Project structure新建目录和设置属性：把src设置为source；在src下新建2个目录，main和...

2019-11-23 18:03:13 272

原创【Spark】Spark Core应用案例讲解

一、统计单词hdfs的文件/user/root/mapreduce/wordcount/input/wc.input 有以下内容：hadoop hivehive hadoophbase sqoophbase sqoophadoop hive启动spark-shellbin/spark-shell读取wc.input 做为rddval rdd = sc.tex...

2019-11-23 15:31:57 545

原创【Spark】Spark RDD Shuffle 讲解

一、概述Spark RDD Shuffle类似mapreduce中的shuffle。bucket相当于分区。什么是spark shuffle？shfulle是spark对数据进行重分区的机制。哪些操作会引起shuffle？具有重新调整分区的操作，eg：repartition，coalesce*ByKey，eg：groupByKey，reduceByKey关联操作：e...

2019-11-10 16:12:27 490

原创【Spark】数据分区

数据分区partitionBy分区在分布式程序中，通信的代价是很大的，因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样，Spark 程序可以通过控制RDD 分区方式来减少通信开销。分区并不是对所有应用都有好处的——比如，如果给定RDD 只需要被扫描一次，我们完全没有必要对其预先进行分区处理。只有当数据集多次在诸如连接这种基于键的操作...

2019-11-09 08:00:00 349

原创【Spark】键值对操作，pair RDD的行动操作

一、概述和转化操作一样，所有基础RDD 支持的传统行动操作也都在pair RDD 上可用。Pair RDD提供了一些额外的行动操作，可以让我们充分利用数据的键值对特性。二、详解1、countByKey() 对每个键对应的元素分别计数示例：val rdd = sc.parallelize(List((1, 2), (3, 4), (3, 6)))rdd....

2019-11-06 20:42:42 147

空空如也

空空如也