Hen_YA-CSDN博客

原创 Spring Boot自动配置原理

每一个Spring Boot项目都有一个全局配置文件，application.properties或者application.yml，我们可以通过代码，来改变Spring Boot的默认配置。要明白每个配置的作用，以及如何进行配置，可以通过官方文档来进行查看。官方示例如下：常见配置说明Spring Boot在启动的时候会加载主配置类，即被@SpringBootApplication标记的类，...

2020-03-15 10:43:03 216

原创 Spring Boot配置文件的加载位置

Spring Boot项目启动时，会扫描以下位置的application.properties或者application.yml文件作为Spring Boot的默认配置文件。file:./config/ (根目录下的config目录)file:./(根目录下)classpath:./config/(类路径下的config目录)classpath:./(类路径下的，即默认的配置文件)以上是...

2020-03-13 20:07:22 1170

原创 SpringBoot常见注解

一、Spring Web MVC注解1.1 @RequestMapping@RequestMapping注解的主要用途是将Web请求与请求处理类中的方法进行映射。SpringMVC通过RequestMappingHandlerMapping和RequestMappingHandlerAdapter两个类来提供对@RequestMapping注解的支持。@RequestMapping注解对请...

2020-03-07 21:04:34 326

原创 SpringBoot2.X整合Redis

一、使用Spring Initializr创建项目web项目①File→New→Project②点击Next如图所示，命名好Group和Artifact③Next后如图所示，勾选中需要的依赖，Spring Initializr会自动导入所需的starter④创建项目成功后，pom.xml文件中的依赖如下在这里插入代码片...

2019-12-12 21:21:12 619

原创 SpringBoot默认缓存相关知识点整理

一、JSR107缓存规范为了缓存开发规范的统一，以及提升系统的扩展性，J2EE发布了JSR107缓存规范。主要是Java Caching定义了5个接口，分别是CachingProvider、CacheManager、Cache、Entry、Expiry。CachingProvider：可以创建、配置、获取、管理和控制多个CacheManager，一个Application在运行期间可以访问...

2019-12-08 22:55:54 407

原创 Docker常用命令&操作

一、镜像操作1）检索docker search 关键字。一般不根据检索的结果进行拉取，而是在DockerHub上进行搜索。docker search redis2）拉取docker pull 镜像名:tag(tag是可选的，tag表示标签，多为软件的版本，默认是latest)docker pull mysql:5.73）列表(查看本地所有镜像)docker images4）...

2019-11-20 23:40:24 2043

原创启动docker报错："Job for docker.service failed because the control process exited with error"解决办法

一、Docker安装1. 查看CentOs版本uname -r# Dcoker要求CentOs系统的内核版本高于3.102. 升级内核(非必须)yum update3. 安装Docker# 默认会下载最新版的Dockeryum install docker4. 启动Dockeryum install docker如果启动过程中没有报错，说明Docker安装启动完成，可...

2019-11-05 21:06:58 17468 4

原创 HBase

什么是HBase？

2018-11-22 22:45:30 159

原创 Kafka

一、什么是Kafka？Kafka是个分布式流处理平台，也可以称之为消息队列。Kafka可以进行简单的数据处理。二、Kafka特点：Kafka采用的是生产者与消费者模式。消费者在消费完每一条数据以后，Kafka中的数据不会丢失。但是这种情况会导致磁盘溢出，因此推出了数据有效期这一机制。这一特点的好处：计算容错率高，假如数据处理失败，还可以重新从kafka中读取过来。允许高并发的情况...

2018-11-21 13:26:27 252

原创 Spark学习(六)常用算子整理

常用算子1、MapPartition2、Map3、MapPartitionWithIndex4、getNumPartitions5、coalesce6、union7、zip8、zipWitIndex9、zipWithUniqueId10、take(n)11、first12、combineByKey1、MapPartition遍历的单位是每一个partition。遍历原理：将每一个partit...

2018-11-18 22:12:08 585

原创 Hive学习(三)操作Hive的方式及优化

一、Beenline之前在操作hive的是，直接通过hive命令进入hive cli进行数据分析以及处理，这种方式既不安全有不规范beeline是一个新兴的cli客户端类似jdbc/odbc 可以解决一切的问题，并且还能够很好的解耦合hive client直接连接HDFS、yarnbeeline需要先与thriftserver连接，thriftserver能够进行安全认证、可靠认证、...

2018-11-17 22:24:56 363

原创 Spark学习(四)资源调度与任务调度的整合

文章目录资源调度结论：1、默认情况下，每一个Worker会为当前的Application启动一个Executor进程，并且这个Executor会使用1G内存和当前Worker所能管理的所有core。2、如果想要在一个Worker上启动多个Executor，可以在提交Application的时候，指定Executor使用的core数，命令为：spark -submit --executor-c...

2018-11-15 20:28:58 1479

原创 Spark学习(二)Spark集群的搭建

Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、基于Standalone的高可用Spark集群搭建一、Spark集群的四种运行模式1、Local单机运行，一般用于开发测试。2、YarnSpark客户端直接连接Yarn，不需要额外构建Spark集群。3、Standalone构建一个由Master+Worker构成的Spark集群，Spa...

2018-11-14 18:38:44 3260

原创 Hive学习(二)知识点整理

Hive一、Hive简介？二、Hive的结构三、Hive的原理四、Hive的数据管理五、Hive的调优六、Hive环境搭建和部署一、Hive简介？hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必...

2018-11-13 20:00:53 1699

原创 Hive学习(一)Hive的三种搭建方式

Hive三种搭建方式一、Local本地（derby）元数据库derby与工具都是在本地只需将压缩包解压，在hive-site.xml做以下配置（将原信息删除）注：需要将hive-site.xml.template更名为hive-site.xmlmv hive-default.xml.template hive-site.xml&amp;amp;lt;?xml version=&amp;quot;1.0&amp;quot;?&amp;

2018-11-12 22:31:43 1084

原创 Spark学习(一)RDD特性及其算子

文章目录一、什么是Spark二、RDD的五大特性三、解释RDD的五大特性一、什么是SparkApache Spark是一个开源的分布式计算框架，用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的，而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码，2012年发布了0.6.0版本，距今已有6年历史，最新版本为2.4.0。开发Spark...

2018-11-10 15:00:13 700

原创 Spark学习(五)Spark Shuffle及内存分配

文章目录一、什么是Spark Shuffle？二、HashShuffle运行原理三、Shuffle可能面临的问题？四、如何优化解决问题？五、SortShuffle运行原理一、什么是Spark Shuffle？1、Shuffle中文意思就是“洗牌”，在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中，什么情况下会发生...

2018-11-08 22:49:33 2893

原创 Yarn集群的搭建与测试

一、集群搭建一、集群规划主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-07 13:37:32 1104

原创 Scala基于JVM的编程语言

一、Scala简介Scala是将面向对象和面向函数式整合在一起，基于JVM的编程语言。它由Martin Odersk于2001开发，2004年开始运行在JVM与.Net平台之上，由于其简洁、优雅、类型安全的编程模式而受到关注。Scala六个特征：Java和scala可以无缝混编(因为都是基于JVM的编程语言)类型推测(自动推测类型)并发和分布式（Actor）特质trait，特征(整合...

2018-11-05 20:29:21 3540

原创 Spark学习(七)问题整理

Stage中的一些问题：1、stage中每一个task(管道计算模式)在什么时候落地磁盘？如果是stage后面是action类算子：collect：将每一个管道的计算结果收集到Driver端的内存中。saveAsTextFile：将每一个管道的计算结果写到指定记录。count：将管道的计算结果统计记录数，返回给Driver。如果是stage后面是stage：在shuffle ...

2018-11-04 16:21:16 2687 2

原创 Spark学习(三)Spark内核

一、Spark中的一些专业术语任务：Application：用户写的应用程序，包括Driver Program和Executor Program。Job：一个action类算子触发执行的操作。stage：一组任务(task)就是一个stage。task：(thread)在集群中运行时最小的执行单元。资源、集群：Master：资源管理的主节点。Worker：资源管理的从节点...

2018-11-03 22:32:08 565

原创 Hadoop生态圈之MapReduce

什么是MapReduce？MapReduce是一个分布式计算框架，以可靠，容错的方式在大型集群（数千个节点）上并行处理大量数据(多为TB级数据)。MapReduce的主要思想是：分久必合MapReduce的核心思想是：把相同的key分成一组，调用一次Reduce方法。一、MapReduce分布式计算原理理论上block大小=split切片大小=map task实际上split的大小比...

2018-10-16 23:52:36 318

原创基于JavaAPI对HDFS的常用操作

一、准备阶段①在Windows系统上配置Hadoop的环境变量在path中添加%HADOOP_HOME%\bin②修改用户名为root，确保对文件(文件夹)操作时有足够的权限HADOOP_USER_NAMEroot③导入jar包，并且将core-site.xml和hdfs-site.xml文件放到src下二、基于API对HDFS的常用操作package com.hpe.wang...

2018-10-16 20:50:55 202

原创 HDFS的一些总结

一、Hadoop历史Google之在2002-2004年间发布了GFS、MapReduce以及BigTable三大论文，也就是Hadoop的“三驾马车”。受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来，成为一套完...

2018-10-16 00:50:03 605

原创 HDFS高可用完全分布式搭建步骤

一、准备阶段分布式思想分布式集群规划主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN ...

2018-10-13 00:31:00 330

原创 HDFS完全分布式搭建步骤

1.准备阶段思路：准备4个Linux操作系统，并配置好IP地址，将NameNode在Hadoop1节点上启动，SecondaryNameNode和DataNode在Hadoop2节点上启动，其余两个DataNode分别在Hadoop3和Hadoop4节点上启动。主机名 IP地址 NameNo...

2018-10-11 21:12:36 1221

原创 HDFS常用命令

1.上传文件：1)hdfs dfs -put src... dest2)hsfs dfs -copyFromLocal src... dest3)hsfs dfs -moveFromLocal src... dest(将本地的文件移动到HDFS中)2.创建新目录1)hdfs dfs -mkdir /test2)hdfs dfs -mkdir -p /test/abc(递归创...

2018-10-11 00:15:22 206

原创分布式存储原理

分布式存储原理1.当HDFS集群启动之时，DataNode会向NameNode发送信息，包括Block存储位置，DataNode地址。2.Client向NameNode汇报当前上传文件的信息(Block数量、文件上传时间、文件权限、拥有着)。2.1 Client将大文件切割成一个个的block块(以字符为单位进行切割)。3.Client向NameNode发送请求，获得BlockId号，存储...

2018-10-10 00:26:24 10636

原创关于IO的一些总结与体会

IO流是用来处理设备与程序之间的数据传输。按流向分为： ①输入流：OutputStream和Writer为基类。 ②输出流：InputStream和Reader为基类。按处理的单位分为： ①字节流：InputStream基类。 ②字符流：OutputStream基类。按流的角色分为：节点流：可以从一个特定的 IO 设备读/写数据的流（访问文件相关，也叫文件流,程序直接作...

2018-08-15 23:37:24 253

滴水穿石的博客