自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 Liunx yum安装MySQL5.7

yum安装MySQL5.71、配置YUM源在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/下载mysql源安装包[root@VM-0-17-centos ~]# wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm--2021-08-21 11:17:48-- http://dev.mysql.com/get/mysql57-co

2021-08-21 12:06:01 187

原创 Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.

Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.

2020-09-03 00:06:53 241

原创 HttpClient上传文件中文乱码(MultipartFile fileName中文乱码乱码)

需要设置http为兼容模式,否则会使用mime默认的编码(US-ASCII)设置方式:MultipartEntityBuilder builder = MultipartEntityBuilder.create();builder.setCharset(Charset.forName("UTF-8"));builder.setMode(HttpMultipartMode.BROWSER_COMPATIBLE);//设置浏览器兼容模式,否则后台接口接收到的文件名中文乱码?????.xlsx.

2020-08-26 16:10:11 1598

原创 Httpclient上传文件流InputStream,使用浏览器兼容模式

private Object uploadRequest(HttpServletRequest servletRequest, String httpUrl, String para, InputStream inputStream, String fileName) { CloseableHttpClient httpClient = null; CloseableHttpResponse httpResponse = null; try { HttpClientBuilder htt.

2020-08-26 16:05:48 865

原创 Dockerfile制作Tomcat镜像

首先制作JDK镜像Dockerfile#基础镜像FROM centos7.4#镜像制作者信息和公司部门产品等相关信息,使用英文简称LABEL maintainer="[email protected]" \#安装jdkADD jdk1.8.0_171.tar.gz /usr/local/#设置java环境变量ENV JAVA_HOME=/apps/jdk1.8.0_171ENV JAVA_BIN=$JAVA_HOME/binENV PATH=$PATH:$JAVA_BINENV.

2020-08-24 19:34:55 141

原创 maven多环境配置文件

1、首先在项目中添加多环境配置文件,并设置将目录设置为资源文件夹:2、首先在pom文件中添加一下配置:<profiles> <profile> <!-- 山东联通测试环境 --> <id>sd</id> <properties> ...

2019-12-25 11:21:21 327

原创 时隔一年后的面经总结之线程池

面试厂家360,技术面三面。问题:你用过哪些线程池?请介绍一下。我最常用的线程池是new ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, TimeUnit unit, BlockingQueue<Runnable> workQueue) ,以下就是我最常用的线程池代码,我...

2019-12-19 21:58:22 461

原创 时隔一年后的面经总结

这是一条时隔一年后的面试凉经。当时的目标厂家是字节跳动,目标岗位大数据工程师。在此记录我印象最深刻的一个问题。由于在大三期间有过实习经历,写过爬虫,并且将这一点写在了我的求职简历中。所以面试官就我在爬虫系统中是如何处理URL的重复问题的。URL去重问题:爬虫在抓取网页时会抓取到数亿条的URL,而这在互联网种属九牛一毛。并且网页中的URL是相互链接的,如果抓取到相同的URL,会行程闭环,...

2019-12-18 21:59:21 228 2

原创 关于定时任务一个批次起止时间的算法设计与实现

适用场景:业务中不乏会添加各种各样的定时任务。添加了一个定时任务后,该定时任务可能是每天执行、每周执行或者是每月执行。无论是每天、每周、每月,本质都是在某一刻去操作某一个时间段的数据。那么现在想查看该任务在本批次想要操作的数据,就得计算出本批次的时间段。注:本批次时间段(起始时间:任务上一次触发的时刻;结束时间:任务下一次执行的时间。)任务包含的时间参数clearCycle:执行周...

2019-12-17 23:03:42 798

原创 SpringBoot前后端分离跨域导致的Sessionid不一致问题解决办法

背景:最近项目进行重构,微服务架构,项目分成多个模块,在用户同步的时候发生了跨域操作。将门户模块的用户信息加密后,通过ajax请求发送给其他模块,例如meta模块,meta模块拿到加密的用户信息后进行解析,然后将用户信息保存到session中。然后发现每次请求,meta模块的sessionid都不同,导致保存在session中的用户信息无效,每次都得重新解析,某些请求是不带用户请求的,所以程序就出...

2019-12-16 23:11:52 4234

原创 Ajax跨域请求,针对SpringBoot

转:https://segmentfault.com/a/1190000012469713?utm_source=tag-newest使用springboot进行前后端分离的时候出现跨域请求。在HTML页面发起ajax请求的时候出现了下列错误。说明这不是一个简单的请求,分别尝试在前端和后端解决。1、发起ajax的时候,将dataType由"json"改为"jsonp"$....

2019-10-30 20:30:03 106

原创 Redis常用命令

1、查看Redis中所有的key。127.0.0.1:6379> keys *1) "person"2、清除所有的key。127.0.0.1:6379> flushallOK127.0.0.1:6379> keys *(empty list or set)3、设置一个key值127.0.0.1:6379> set str testOK4、查看一个key的值127.0.0.1:6379> get str"test"

2019-07-29 10:30:59 188

原创 Docker入门笔记

Dockerfile实战:构建Tomcat镜像步骤:1.新建docker_demo文件夹,并进入。2.将Tomcat和jdk安装包复制到该目录中。3.在该目录下新建Dockerfile文件,文件名首字母D必须为大写。4.根据上述基本结构来编辑Dockerfile文件。5.使用docker build命令来构建镜像。6.使用docker run命令来启动容器。

2019-07-23 21:37:07 304

原创 sqoop将mysql数据导入hdfs和hive学习笔记

#安装好以后将mysql驱动mysql-connector-java-5.1.21-bin.jar放到sqoop安装目录的lib下面一、将mysql数据导入hdfs,命令如下:[root@master bin]# /apps/sqoop-1.4.7/bin/sqoop import \--connect jdbc:mysql://localhost:3306/sqoop \--u...

2019-03-07 10:54:42 826

原创 如何运行一个uve.js项目

目录第一步首先安装node.js第二步安装vue-cli脚手架构建工具第三步运行项目第一步首先安装node.js在官网下载node.js(.msi)安装包版本安装的时候可一路next即可完成安装。在安装的时候可能会出现2503错误,这是因为安装权限的问题。所以你可以使用管理员权限来运行安装包首先用管理员来运行cmd 然后运行安装包msiexec /pac...

2019-03-04 11:17:07 2154

原创 maven构建SSM项目pom.xml文件依赖

&lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_...

2019-01-16 14:38:09 890

原创 Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative

Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5CHadoop%5Chdfs%5Cwordcount%5Cinput%5Ca.txt

2018-09-18 10:12:38 2638 1

原创 spark-submit提交jar包到spark集群上

一、首先将写好的程序打包成jar包。在IDEA下使用maven导出jar包,如下:在pom.xml中添加以下插件 &lt;plugin&gt; &lt;groupId&gt;org.apache.maven.plugins&lt;/groupId&gt; &lt;artifactId&gt;maven-...

2018-09-18 10:08:42 18680 2

原创 JdbcRDD在多个分区情况下是如何读取数据的

package nuc.sw.testimport java.sql.{Connection, DriverManager}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable/** * creat...

2018-09-17 15:25:43 553

原创 什么是shuffle,如何区分操作是否还有shuffle

将一份数据分开发送到好几个地方的操作还有shuffle

2018-09-16 12:10:17 3207 3

原创 深入理解java虚拟机(第一篇)

在eclipse中查看内存溢出的案例:package main;import java.util.ArrayList;import java.util.List;/** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */public class HeapOOM { public static void main(String[] args) {...

2018-09-12 16:25:07 136

原创 深入理解RDD

什么是RDD?RDD 是一个分布式的可变集合常用的Transformation(即转换,延迟加载)通过并行化scala集合创建RDD数据既可以放到内存当中,又可以放在磁盘当中五个特点:1、一系列分区组成2、每一个分区上都会有一个函数作用在上面3、RDD和RDD之间存在依赖关系4、如果RDD里面装的是Key-value类型,有分区器5、如果是从hdfs这种文件系统中创建RDD,会...

2018-09-11 22:03:58 293

转载 java集合框架源码解析

给jdk写注释系列之jdk1.6容器(1)-ArrayList源码解析给jdk写注释系列之jdk1.6容器(2)-LinkedList源码解析给jdk写注释系列之jdk1.6容器(3)-Iterator设计模式给jdk写注释系列之jdk1.6容器(4)-HashMap源码解析给jdk写注释系列之jdk1.6容器(5)-LinkedHashMap源码解析给jdk写注释系列之jdk...

2018-09-08 11:03:10 151

原创 Hbase高可用集群搭建

下载Hbase安装包,并解压1、修改hbase-1.2.6/conf/hbase-env.sh 配置文件export JAVA_HOME=/apps/jdk1.8.0_171export HADOOP_HOME=/apps/hadoop-2.8.0 #配置hadoop变量,否则hbase不识别hdfs集群名export HBASE_HOME=/apps/hbase-1.2.6ex...

2018-09-04 10:31:29 444

原创 RDD算子2

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html//让我们先用分区标签打印出RDD的内容scala&gt; val z = sc.parallelize(List(...

2018-09-03 21:44:14 148

原创 RDD算子1

RDD 是一个分布式的可变集合#常用的Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDscala&gt; val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9,10))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at par...

2018-09-03 21:43:01 119

原创 spark中的reduceByKey VS groupByKey

在编写spark程序时,reduceByKey和groupByKey都可以实现分组聚合的功能,但是在实际中使用哪一个更好呢。还记的在写MapReduce程序的时候,每一台机器上的数据会经过shuffle,分发到属于自己的机器上进行汇总计算。这个过程是通过网络进行IO操作的,是很费资源的。所以在MapReduce中可以在map端先进行combiner,也就相当于执行了一次reduce,然后再进行...

2018-08-31 20:22:43 372

原创 RDD常用的transformation及分区详解

RDD常用的transformation及分区详解常用的transformation(转换,延迟加载)创建RDD有两种方法:1.通过driver端,也就是spark-shell端通过集合来创建。2.可以通过集群上的数据来创建。

2018-08-30 21:52:48 339

原创 什么是RDD

什么是RDD,RDD的transformation和action到底是什么

2018-08-30 20:56:01 4074

原创 Spark+HDFS实现wordCount

首先启动环境:1、启动hdfs[root@master conf]# start-dfs.sh2、然后启动spark[root@master spark-2.2.0]# sbin/start-all.sh  --master spark://master.hadoop:7077[root@master spark-2.2.0]# bin/spark-shell --mast...

2018-08-30 15:04:27 786

原创 HIVE使用本地模式执行操作

将hive的Job交给yarn执行太慢,hive支持本地模式set hive.exec.mode.local.auto=true;默认为false测试例子:试验:先创建一张表,指定文件格式为sequencefilecreate table t_seq(id int, name string, addr string)stored as sequencefile;然后往表中插入数...

2018-08-29 09:46:27 6760

原创 Spark提交任务的命令

bin/spark-submit --master spark://master.hadoop:7077,slave1.hadoop:7077 --executor-memory 512mb --total-executor-cores 4--class nuc.sw.test.ScalaWordCount /root/spark-1.0.jar hdfs://master.hadoop:90...

2018-08-28 19:47:29 4231

原创 WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

提交Spark任务时,报错:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

2018-08-28 19:27:58 2228

原创 spark资源调度与yarn类比

spark资源调度与yarn类比:master负责资源调度:就是决定在那些worker上启动executor,监控worker) ————&gt;   yarn上的是resourcemanagerworker负责启动执行任务的进程(executor),并且监控executor,并且将当前机器的信息通过心跳汇报给master————&gt;nodemanagerexecutor负责执...

2018-08-27 19:05:48 648

原创 Spark集群中的Master和Worker之间的通信原理

worker是如何知道master在哪台机器上的?在配置文件中也没有配。配置文件如下:export JAVA_HOME=/apps/jdk1.8.0_171 export SCALA_HOME=/apps/scala-2.11.7 #export HADOOP_HOME=/apps/hadoop-2.8.0/ #export HADOOP_CONF_DIR=/apps/h...

2018-08-23 19:19:24 3858

原创 Spark+zookeeper搭建高可用集群学习笔记

Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用,配置方案比较简单先停止所有Spark服务,然后安装zookeeper,并启动zookeeper集群规划:主机名 IP地址 启动程序 master.hadoop 192.168.1.2 zookeeper、master、worker slave1.hado...

2018-08-21 21:09:18 5074 1

原创 Spark2.2.0集群搭建学习笔记

一、Spark简介:Saprk可以运行在hadoop的yarn或Mesos,standalone,clude(资源管理框架)上,使用的文件系统可以是HDFS,也可以使Cassandra,HBase等。 二、环境搭建:如果想学习spark最好的方法是看官方文档。spark仅仅是一个通用的负责计算的框架,有很多内置的算子。而在mapreduce中需要在map中提供排序规则他可以生成一个...

2018-08-21 19:31:37 737

原创 zookeeper集群启动脚本

zookeeper集群启动脚本

2018-07-14 17:54:38 712

原创 HA高可用集群namenode启动后自动停止解决办法

WARN org.apache.hadoop.ipc.Client: Failed to connect to server: master.hadoop/192.168.1.2:8485: retries get failed due to exceeded maximum allowed retries number: 10

2018-07-14 17:51:05 7932 1

原创 hive DDL 笔记

为了查看表结构和数据方便使用客户端服务端模式访问hive 开启hive服务端(监听端口为10000)[root@master apps]# hive-1.2.1/bin/hiveserver2开启服务端口后光标一直闪烁,表示开启若想启动到后台nohup bin/hiveserver2 1&gt;/dev/null 2&gt;&amp;1 &amp;客户端连接hive...

2018-07-07 19:02:22 222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除