自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

@coredao

学无止境,且行且珍惜

  • 博客(52)
  • 资源 (2)
  • 收藏
  • 关注

原创 sublime text3配置显示空格和制表符

Perferences 中选 settings。上面是配置显示,下面是配置自动转换。{ "draw_white_space": "all", // The number of spaces a tab is considered equal to "tab_size": 4, // Set to true to insert spaces when tab is pressed "translate_tabs_to_spaces": true, //设置保存时自动转换 "expand_

2022-01-05 11:11:50 8484

原创 DataGrip如何将创建的console保存路径设置到指定目录?

当你的C盘在不断爆满的时候,当发现DataGrip的默认存储路径就在C盘,你还无可奈何。。博主搜刮了一遍 DataGrip 的 settings ,终于找到了在哪里设置指定路径!A 打开新建项目 | customize | All settings…B File | Settings | Appearance & Behavior | System Settings然后把 default project directory 改成自己想自定的目录就OK了。顺便可以把这个设置的上一个设置勾选去

2021-07-20 16:05:01 18753 19

原创 shell特殊变量

#命令行解释器#!/bin/bash #n为数字,$0代表该脚本名称,$1-$9代表第1到第9个参数,10以上的参数需要用大括号包含,如${10} $n#获取所有输入参数个数,常用于循环$##代表命令行中所有的参数,$*把所有的参数看成一个整体$*#代表命令行中所有的参数,$@把每个参数区分对待$@#最后一次执行的命令的返回状态,如果这个变量的值为0,证明上一个命令正确执行;如果这个变量的值为非0(具体是哪个数,由命令自己决定),则证明上一个命令执行不正确$?#脚本运..

2021-04-12 19:54:11 288

原创 Linux中2>&1的含义

A Linux中0、1、2的含义名称代码操作符Java中表示Linux 下文件描述符(Debian 为例)标准输入(stdin)0< 或 <<System.in/dev/stdin -> /proc/self/fd/0 -> /dev/pts/0标准输出(stdout)1>, >>, 1> 或 1>>System.out/dev/stdout -> /proc/self/fd/1 -&g

2021-04-12 19:37:40 627 1

原创 Linux查看内存、磁盘存储、io读写、端口占用、进程等命令?

内存:top磁盘存储: df -lh(文件系统du -h)端口占用:netstat -tunlp进程:ps -aux | grep 进程名io读写:iotop (没有通过yum安装)(观察大内存读写)

2021-04-12 19:33:17 412

原创 Linux查看磁盘使用或数据量指令

老铁废话不多说,直接上指令#查询系统整体磁盘使用情况----------------------------------------------------df -h#磁盘不够用要想办法了#查询指定目录的磁盘占用情况---------------------------------------------------du -h /目录-s #指定目录占用大小汇总-h #带计量单位-a #含文件--max-depth=1 #子目录深度-c #列出明细的同时,增加汇总值#实例:查询/

2021-04-12 16:51:15 581

原创 Linux挂载新硬盘

A 需求给Linux系统增加一个硬盘,并挂载到/home/newdisk/下B 步骤虚拟机添加硬盘分区格式化挂载设置可以自动挂载C 操作vmware中虚拟机->设置->硬盘->添加->选硬盘,下一步选SCSI(S)创建新的虚拟磁盘分配所需容量磁盘文件名终端lsblk #没有新磁盘信息,需重启#重启reboot #查看磁盘lsblk #看到sdb#分区=========

2021-04-12 16:47:19 184

原创 Linux定时任务调度

定时任务调度‼️‼️crond+玩法较多,可以设置自动校准时间,自定开启服务等A 命令:#语法crontab [选项]-e #编辑crontab定时任务-l #查询crontab任务,列出当前所有任务调度-f #删除当前用户所有的crontab任务crontab -r #终止任务调度service crond restart #重启任务调度systemctl status|restart|stop crond.service#实例===========================

2021-04-12 16:22:05 169

原创 Linux文件类型及UGO模型

A 文件的类型(5种)-普通文件d目录l软链接文件c字符设备(键盘、鼠标)b块文件、硬盘B 文件最前面的意思(UGO模型)-rw-r--r--可分为四部分-,rw-,r--,r--文件类型文件所有者权限文件所在组用户权限文件其他组用户权限C 权限(rwx)C1 作用于文件r 表示read,可读取w 表示write,可修改【注意不代表可删除此文件,删除此文件的前提是对该文件所在目录有写权限】x 表示execute,可被执行C2 作用于目录r 表示可

2021-04-12 15:35:04 264

原创 Linux统计文件夹下个数指令

A 指令#1.统计/home文件夹下文件的个数ls -l /home | grep "^-" | wc -l#grep过滤,保留-打头的#^为定位符号,表示以-打头的(就是文件,不了解可以看相关中Linux文件类型)#wc表示统计#2.统计/home文件夹下目录的个数ls -l /home | grep "^d" | wc -l#3.统计/home文件夹下文件的个数,包括子文件夹里的ls -lR /home | grep "^-" | wc -l#-R表示递归查询#4.统计文件

2021-04-12 15:27:08 452

原创 Linux如何找回root密码

A 方法一思路:进入单用户模式,修改root密码(进入单用户模式,不需要root密码)。前提是在电脑身边修改,不可远程修改。步骤:开机,在引导时输入 enter键,看到一个界面输入e,再看到一个新的界面,选中第二行(编辑内核)在输入e,在这行最后输入 1,再enter再次输入b,则会进入单用户模式passwd修改root密码B 方法二进入开机状态按e按方向键下,定位到fi的下一行,找到ro一行,这个

2021-04-12 15:19:59 157

原创 flink中的keyBy中的key

这个key是虚拟key,没有实体,所以不会返回。其是从进来的流数据中选取的字段。关键看这个虚拟key是什么类型。KeyedStream<Tuple3<String, String, Integer>, Tuple> keyedStream = map.keyBy(0);keyedStream.print();KeyedStream<Tuple3<String, String, Integer>, String> KeyedStream5 = map.

2021-04-03 16:24:24 497

原创 flink中sink出Csv格式注意

A1 报错A2 原因见官网中,需要写入元组格式https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/datastream_api.html#data-sinksA3 解决csv需要以逗号作为分隔符,而tuple(元组)的toString方法正好是以逗号分割。...

2021-04-03 16:22:30 763

原创 flink中获取执行计划报错IllegalStateException Cteate breakpoint

A1 报错A2 原因获取执行计划方法需要放在操作之后A3 解决A4 补充flink执行计划网址:https://flink.apache.org/visualizer/使用方法拷贝添加执行计划方法后控制台打印的json数据粘贴到网址中的输入框中这是计划执行的图,实际执行的图在执行后的webUI界面中。A5 问题有兴趣的小伙伴可以比较一下flink的计划执行和实际执行的两张图有什么不同?为什么会不同呢?欢迎在评论区打出你的答案。...

2021-04-03 16:16:34 257

原创 flink中使用webUI查看信息时job not found

A1 报错这个报错不影响执行A2 原因上一次任务的webUI界面没有关闭,导致flink请求一个不存在的网页A3 解决关闭上次任务的网页(删掉后面的url信息)

2021-04-03 16:07:13 1245 1

原创 flink中报错JobExecutionException错误

A1 报错A2 原因代码中使用了socket作为DataSource,如果socket监听的端口没有打开,即lLinux下nc -lk 端口号或者Windows下nc -L -p 端口号,那么就会报错。比如,我在代码中指定端口为9999.A3 解决在终端开启监听端口...

2021-04-03 16:02:38 533

原创 flink中maven项目出现java: 程序包org.apache.flink.api.java不存在

A1 报错java: 程序包org.apache.flink.api.java不存在A2 原因idea的maven找不到你的Java的jar包A3 解决第一种:重启项目,然后刷新maven(刷新按钮或者clean+install)第二种:在idea中终端输入命令:mvn idea:idea第三种:根据提示进行...

2021-04-03 15:57:04 7446

原创 Flink中使用Scala编写出现(...)错误

A1 报错A2 原因没有导入相应包A3 解决在算子前添加import org.apache.flink.api.scala._

2021-04-03 15:48:53 319

原创 Flink中使用lambda表达式出现的问题

A1 报错A2 原因lambda表达式编写方式不自动识别返回类型,需要手动跟上returns指定类型。源码:/** * Adds a type information hint about the return type of this operator. This method * can be used in cases where Flink cannot determine automatically what the produced * type of a function

2021-04-03 15:45:33 447

原创 Flink中NoClassDefFoundError环境报错

A1 报错A2 原因scope provided:用于打包的时候不包含这个依赖,以便增强代码移植性。A3 解决

2021-04-03 15:31:20 732 1

原创 Kylin自动合并机制

A1 why增量构建的Cube每天都可能有新的增量。日益剧增,Cube可能会包含上百个Segment,查询性能会受到影响。A2 解决合并segment:可手动,可自动。在Web GUI中选中需要进行Segments合并的Cube,单击Action→Merge,然后在对话框中选中需要合并的Segment,可以同时合并多个Segment,但是这些Segment必须是连续的。A3 自动合并A4 数据持续更新数仓里面的数据拿取的是数据库中某个时间的状态数据,不可能像Mysql中数据一样频繁的更新。

2021-03-30 22:28:11 395

原创 kafka的ack确认机制

ack(acknowledgemen 确认收到)A1 目的为了保证producer发送的数据能可靠的发送到指定的topic。A2 过程topic的每个partition收到producer发送的数据后,都需向producer发送ack,如果producer收到ack,就会进行下一轮的发送,否则重新发送。A3 穿插ISR机制:Leader维护了一个动态的in-sync replica set (ISR),意为和leader保持同步的follower集合。follower长时间不同步,被踢出I

2021-03-30 21:56:26 4960

原创 kylin数据模型:星型模型vs雪花模型

A1 数据模型1.1 星型模型star schema定义:星型模型就是一张事实表,以及零个或多个维度表;事实表与维度表通过主键外键相关联,维度表之间没有关联,就像很多星星围绕在一个恒星周围,故取名为星形模型。优点大数据用的多,查询快效率高1.2 雪花模型snowFlake schema定义:将星形模型中的某些维表抽取成更细粒度的维表,然后让维表之间也进行关联,这种形状酷似雪花的的模型称为雪花模型。优点减少冗余1.3 对比星型模型雪花模型数

2021-03-29 22:31:31 439

原创 数仓分层

A1 作用:复杂问题简单化隔离原始数据(后期统计和真实数据解耦)数据复用性提高数据结构更清晰统一数据口径A2 优缺点优点效率高缺点预计算占空间A3 图解A4 实现A5 相关数仓项目...

2021-03-29 16:13:30 158

原创 2021_03_28

A 问题A1 背压机制Spark 1.5以前版本,用户如果要限制 Receiver的数据接收速率,可以通过设置静态配制参数 “spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如: producer数据生产高于 maxRate,当前集群处理能力也高于 maxRate,这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力,1.5版本开始 Spark Streaming

2021-03-28 22:24:50 89

原创 2021_03_25

A 问题1.spark⽀持故障恢复的⽅式?2.详细说一下hadoop和spark的相同点和不同点?3.spark如何保证宕机迅速恢复?A1 spark⽀持故障恢复的⽅式?主要包括两种⽅式:⼀种是通过⾎缘关系lineage,当发⽣故障的时候通过⾎缘关系,再执⾏⼀遍来⼀层⼀层恢复数据;另⼀种⽅式是通过checkpoint()机制,将数据存储到持久化存储中来恢复数据。A2 详细说一下hadoop和spark的相同点和不同点?Hadoop底层使⽤MapReduce计算架构,只有map和red

2021-03-25 22:14:11 118

原创 windows美化之任务栏StartlsBack

A1 工具StartlsBackA2 打开方式安装后,打开方式:windows开始图标右键,点击属性A3 界面说明3.1 基础开始菜单设置3.2 外观设置3.3 添加自定义图标然后选择图片3.4 任务栏居中设置A4 工具下载在我的资源中可下载,更多玩法欢迎探索...

2021-03-25 21:04:07 622

原创 lambda架构+kappa架构+IOTA架构

简略理解:

2021-03-25 19:26:44 422

原创 解决mysql中文乱码+database Tool中连接mysql中文乱码

A1 数据库查看自己的数据库是否设置为Utf-8A2 进入mysql查看命令:mysql -u root -p输入MySQL密码进入输入:show variables like 'char%';查看mysql的各项编码格式修改不为utf8的参数,有两种A3 第一种命令不一定有效,我用的时候没起作用,不想尝试直接上第二种。mysql中输入命令set character_set_database=utf8;set character_set_server=utf8;这么改后不一

2021-03-24 19:44:09 189 2

原创 虚拟机打开出错 operation inconsistent with current state

解决:关掉重开重启

2021-03-24 19:31:15 208

原创 Linux之硬链接与软链接

硬链接与软链接A1 前言1、我们知道文件,都有文件名和数据。这在Linux上被分为两部分:用户数据(user data)元数据(metadata)用户数据,即文件数据块(data block),数据块是记录文件真实内容的地方元数据,是文件的附加属性,如文件大小、创建时间、所有者等信息。2、在Linux中,元数据中的inode号(inode是文件元数据的一部分但其并不包含文件名,inode号即索引节点号)才是文件的唯一标识而不是文件名。(例如对一个文件重命名(mv)但inode号仍相同

2021-03-17 09:13:59 125

原创 Yarn三种调度器

A1 总述1. FIFO Scheduler2. Capacity Scheduler3. Fair SchedulerA2 具体1. FIFO 名字:队列调度器 特点:先进先出,提交的job一个一个完成2. Capacity(默认) 容器调度器 FIFO的多队列版本 3. Fair公平调度器A5 相关5.1Yarn 调度器Scheduler详解(很棒的一篇)...

2021-03-13 22:19:41 125

原创 Spark相关配置优先级

代码(开始输入就写死了)命令行(最好,灵活)文件(默认,可修改)

2021-03-13 22:03:25 294

原创 面向对象之特性

面向对象之特性A1 总述封装、抽象、继承、多态学习思路:奥义+实现+意义A2 封装(Encapsulation)奥义:信息隐藏或数据访问保护类通过暴露有限的访问接口,授权外部仅能通过类提供的方式(或函数)来访问内部信息或数据。实现:通过访问权限控制,比如Java中的访问权限控制语法:private、public等关键字。抽象意义:使属性和代码内部逻辑不可随意修改,提高diamagnetic可读性和可维护性。类通过有限方法暴露必要的操作,提高类的易用性。

2021-03-12 20:56:41 108

原创 spark-yarn-cluster任务提交方式Logs出现Fails且无法访问

A1 原因提交方式:注意用yarn-cluster提交方式的命令日志没有收集A2 解决用yarn-cluster提交方式的命令命令:./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.12-2.4.6.jar 10 或者 ./spark-submit --master yarn-clust

2021-03-11 22:21:20 296

原创 宽窄依赖影响的是什么?

stage

2021-03-11 09:44:41 194

原创 宝塔面板登录不上:请使用正确的入口登录面板

A1 问题A2 原因没有输入端口号后的8位随机数A3 解决两种情况3.1 能找到这8位则在端口号后加上即可,如 http://公网ip:8888/8位随机数。访问即可。3.2 找不到连接服务器,阿里云中的远程连接或者本地xshell连接都可。进入服务器。输入命令 bt出来界面输入 11,取消入口限制即可。再次登录面板,就不用输入后8位随机数了A4 设置后8位因为没有后8位入口限制数会导致一定的不安全。所以我们在强行去除登录后,可以自定义这8位数。在

2021-03-10 14:58:41 2748

原创 网站备案后没有找到站点

问题:原因:您没有将此域名或IP绑定到对应站点!配置文件未生效!解决:检查是否已经绑定到对应站点,若确认已绑定,请尝试重载Web服务(大部分是这个问题,添加对应站点和开放端口)检查端口是否正确;普通网站访客,请联系网站管理员;步骤:登录宝塔面板 -> 网站...

2021-03-10 14:42:12 775

原创 判断flatmap、reduceByKey、GroupByKey算子的宽窄

A1 思路添加分区参数看是否报错看源码参数是否有与分区相关的A2 具体flatmap(窄):def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))}

2021-03-10 10:10:40 363

原创 spark中如何判断算子宽窄?

A1 方法:一种方法:看参数是否可以改变分区数可以看源码中参数是否有与分区相关的,比如numPartitionsA2 例子:sortBy和map比较:sortBy最后有numPartitions,添加不报错map后加上数字(表示分区数的)会报错A3 解释看sortBy和map源码:sortBy中第三个参数是numPartitionsdef sortBy[K]( f: (T) => K, ascending: Boolean = true,

2021-03-10 10:07:44 124

windows任务栏美化工具StartlsBack.zip

可以实现任务栏打开应用居中,任务栏透明等自定义任务栏操作

2021-03-25

scala知识思维导图

Scala语言的思维导图,分理论,安装,基础,函数和API五部分,对应语言的掌握足够,另附有代码文件

2021-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除