自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Together

大数据小白成长之路

  • 博客(152)
  • 资源 (1)
  • 收藏
  • 关注

原创 【Spark】SparkStreaming入门解析(一)

一、Spark Streaming概述官网http://spark.apache.org/streaming简介Spark Streaming是一个基于Spark Core之上的、用于流式数据的处理实时计算框架,具有高吞吐量和容错能力强等特点可以从很多数据源消费数据并对数据进行实时的处理,数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算...

2020-04-10 23:32:33 7047 4

原创 【Redis】Redis入门详解(一)

一、Redis概述①.Redis简介Redis是一个使用C语言编写的key-value开源的NOSQL存储系统。(区别于MySQL的二维表格的形式存储)②.Redis特点高效性:Redis读取的速度是110000次/s,写的速度是81000次/s原子性:Redis的所有操作都是原子性的,同时Redis还支持对几个操作全并后的原子性执行。支持多种数据结构:string(字符串);lis...

2020-03-13 11:41:28 14733 9

原创 【Spark】SparkSQL入门解析(一)

【一】简介 (本文部分图片来自网络,侵删)Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用【二】特点【2.1】易整合Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用【2.2】统一的数据访...

2020-02-15 23:11:29 13389 4

原创 【Hudi】Flink + Hudi 实践

前言好久没有更新 “好” 文章了,内心很过意不去,怎么变的这么懒了,哈哈哈哈哈正好,最近数据湖的概念火的一塌糊涂,特别是 Hudi , 与 Flink 的结合越来越好,可以说 Flink + Hudi 就是未来的趋势,这不,我就来简单讲讲,给 “小白”当个引路人,让知识传播给大家,毕竟我也是从小白看着别人的文章过来的Hudi概述Apache Hudi (简称:Hudi) 使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理

2022-03-07 15:47:29 6315

原创 【Linux】问题记录总结

【问题1】YumRepo Error: All mirror URLs are not using ftp, http[s] or file解决方法:vi /etc/yum.repos.d/CentOS-Base.repo删除原有内容,添加如下保存即可[base]name=CentOS-$releasever - Base#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&rep

2022-03-06 01:28:43 253

原创 【每周一个小技能】Obsidian配合Git实现笔记自动同步

一、码云创建私有库二、关闭安全模式,安装 Ob Git三、设置自动同步时间,单位为 分钟

2022-02-21 11:17:25 8951

原创 【MySql】记录在Windows安装的过程

1、windows下载地址:https://dev.mysql.com/downloads/windows/installer/8.0.html2、停止windows中原有mysql服务3、打开下载好的mysql安装软件,卸载原有mysql服务4、安装MySQL8.05、配置环境变量6、检测并启动...

2022-01-15 17:00:01 450

原创 【Flink】Flink入门解析(二)

【1】WordCount 代码实战1、打开 idea , 创建maven项目,引入如下依赖注意事项:在引入前请务必正确配置 maven <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.

2021-12-08 23:39:18 451

原创 【Linux】宝塔建站问题记录

在使用宝塔面板一键搭建 WordPress 的过程中,填写好了完整信息,原本很正常,突然显示报错,大致描述的是/www/server/panel/ 这个目录下的文件有问题,所以我们就删除重新下载一遍,命令如下↓rm -rf /www/server/panel/pyenvcurl https://download.bt.cn/install/update_panel.sh|bash...

2021-12-05 12:09:00 588

原创 【Linux】CentOS7常用命令

修改主机名vim /etc/hostname

2021-11-29 23:30:35 704

原创 【每周一个小技能】WSA 安装

Windows11 UI yyds!( :记录一下WSA安装过程一、准备过程1、一台笔记本 (废话!)2、Windows11系统 (也是废话!)3、WSA 微软商店链接 : https://www.microsoft.com/en-us/p/windows-subsystem-for-android-with-amazon-appstore/9p3395vx91nr?activetab=pivot:overviewtab4、安装包抓包地址:https://store.rg-adguard.net

2021-11-07 18:19:47 18804 4

原创 【每周一个小技能】正则表达式

正则表达式常用符号实例描述.匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符,请使用象 ‘[.\n]’ 的模式。?匹配一个字符零次或一次,另一个作用是非贪婪模式+匹配1次或多次*匹配0次或多次\b匹配一个长度为0的子串\d匹配一个数字字符。等价于 [0-9]。\D匹配一个非数字字符。等价于 [^0-9]。\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S

2020-10-04 19:32:28 401

原创 【每周一个小技能】Sublime 常用快捷键

选择类快捷键功能描述Ctrl+D选中光标所占的文本,继续操作则会选中下一个相同的文本Alt+F3选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑。举个栗子:快速选中并更改所有相同的变量名、函数名等Ctrl+L选中整行,继续操作则继续选择下一行,效果和 Shift+↓ 效果一样Ctrl+Shift+L先选中多行,再按下快捷键,会在每行行尾插入光标,即可同时编辑这些行Ctrl+Shift+M选择括号内的内容(继续选择父括号)。举个栗子:快速选中

2020-09-27 23:15:45 222 1

原创 【每周一个小技能】浏览器常用快捷键

快捷键功能Ctrl + T新建标签页Ctrl + W关闭当前标签页Ctrl + N打开新的窗口Ctrl + N + Shift打开新的窗口Ctrl + Tab组合键切换到下一个标签Ctrl + Tab + Shift切换到前一个标签Ctrl + D添加到收藏夹Ctrl + F在当前页面查找Ctrl + R刷新当前页面Ctrl + O + Shift刷新当前页面Ctrl + 1、2、3,依此类推切换到特定选项...

2020-09-26 14:26:19 285 1

原创 【数据库】Presto学习之路

一、Presto简介【1】Presto概念Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题注意:虽然Presto可以解析SQL,但它不是一个标准的数据库,不能像数据库一样存储数据,所以不是MySQL、Oracle的代替品,因此也不能用来处理在线事务(OLTP)【2】Presto应用场景Presto支持在线数据查询,包括Hive,关系数据库(MySQ

2020-09-13 00:52:26 3998

原创 【Hadoop】Hadoop文件压缩与存储格式

(图片来源于网络,侵删)文件压缩是什么?文件?压缩?顾名思义,可以认为是对一个文件的大小进行压缩,使其压缩后的大小为原本大小的二分之一、四分之一、甚至十分之一,这样压缩后的文件减小了文件的存储大小,释放了大量空间,也利于文件的传输!在Hadoop中,我们知道MR的输入和输出以及中间结果的Shuffle都和Disk有密切的“交流” !所以压缩对于MR来说可以说是非常重要的!因为我们看一下常见的压缩方式有哪些吧! 如下图????压缩格式codec类算法扩展名多文件splitable

2020-09-12 19:03:19 1275

原创 【数据库】SQL Server学习之路(一)

(图片来源于网络,侵删)【1】SQL Server简介现在,我们要开始学习SQL Server了,那么它到底是什么呢?我们看一下百度百科上面的解释????没错,就是由微软推出的运行在windows上的关系型数据库,提到数据库,相信你一定不会陌生。有Oracle、MySQL、MongoDB、Redis、Hive等等而我们今天要来学习的 SQL Server,就是下面这张图中排名第三的数据库,仅次于Oracle和MySQL,足以见到这款数据库也是非常火爆的!【2】SQL Server语法因为

2020-09-07 23:16:24 5569

原创 【Hive】Hive中表创建方式及其对比

HIve表的创建方式【1】craete table首先就是最常见的方式,通 create table 方式进行建立hive表例如????create [external] table [IF NOT EXISTS] tableName(column columnType comment 'annotation',column columnType comment 'annotation',column columnType comment 'annotation',...)partit

2020-08-15 17:36:00 1456

原创 【数据结构与算法(5)】堆

堆简介堆是完全二叉树,通常使用数组来实现。除了树的最后一层结点不需要是满的,其他的每一层从左到右都是满的,如果最后一层结点不是满的,那么就不能称之为完全二叉树

2020-08-03 23:06:56 791

原创 【数据结构与算法(4)】树

树关于树的相关术语结点的度: 一个结点含有的子树的个数称为该结点的度 叶结点: 度为0的结点称为叶结点,也可以叫做终端结点 分支结点: 度不为0的结点称为分支结点,也可以叫做非终端结点 结点的层次: 从根结点开始,根结点的层次为1,根的直接后继层次为2,以此类推 结点的层序编号: 将树中的结点,按照从上层到下层,同层从左到右的次序排成一个线性序列,把他们编成连续的自然数 树的度: 树中所有结点的度的最大值 树的高度(深度): 树中结点的最大层次 森林: m(m

2020-08-02 17:47:58 865 1

原创 【数据结构与算法(3)】线性表

注:具体实现由博主自行编写,可能会有错误,如果有小伙伴发现了错误或者可以优化的地方,烦请评论或私信博主,博主很愿意交流技术!!!一、线性表【1】顺序表public class 顺序表 { public static void main(String[] args) { Sequence<Integer> sequence = new Sequence<Integer>(1); sequence.add(1); seq..

2020-08-02 16:47:46 893

原创 【Flink】Flink入门解析(一)

一、Flink概述【1】Flink简介Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会,参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员,2014 年 12 月, Flink 一跃成为 Apache 软件基金会的顶级项目在德语中,Flink 一词表示快速和灵

2020-08-01 23:40:44 914

原创 【数据结构与算法(2)】高级排序

一、高级排序【1】希尔排序public class 希尔排序 { public static void main(String[] args) { Integer[] arr = {3, 1, 5, 2, 4, 4, 9, 8, 7}; Hill.sort(arr); System.out.println(Arrays.toString(arr)); }}class Hill { public static void sor

2020-07-28 22:14:52 912

原创 【数据结构与算法(1)】简单排序

一、数据结构概述数据结构包括:线性结构、非线性结构线性结构1)线性结构作为最常用的数据结构,其特点是数据元素之间存在一对一的线性关系2)线性结构有两种不同的存储结构,即顺序存储结构和链式存储结构。顺序存储的线性表称为顺序表,顺序表中存储的元素及元素地址是连续的3)链式存储的线性表称为链表,链表中的存储元素不一定是连续的,元素节点中存放数据元素以及相邻元素的地址信息4)线性结构常见的有:数组、队列、链表、栈非线性结构非线性结构有:二维数组、多维数组、广义表、树结构、图结构二、队列...

2020-07-27 23:18:36 1072

原创 【Hive】MR实现HQL操作的原理

我们知道,Hive默认使用的计算引擎是MR,但有没有想过我们写的HQL语句是如何转换为MR程序的?所以博主总结了一些简单HQL语句转换为MR的基本原理【1】常用SQL转换操作 Join的实现原理 对于SQL来说,join操作可以说是最常用的操作了,那么是如何转换为MR程序的呢?SQL语句如下????select u.name, o.orderid from order o join user u on o.uid = u.uid;在map的输出value中为不同表的数据打上tag标记,在

2020-07-27 20:25:02 3638 1

原创 【GP】Greenplum入门解析(二)

Greenplum与Hive在使用上的的差异总结1、字段拼接Greenplum 字段拼接使用的是 ||Hive 字段拼接使用的是 concat / concat_ws2、类型转换Greenplum 类型转换使用的是 ::Hive 类型转换使用的是 CAST(字段 AS 类型)未完待续…...

2020-07-22 16:32:46 1780

原创 【PostgreSQL】PostgreSQL入门解析

本章内容主要来源于网络各种渠道,侵删!一、表的定义【1】创建表create table 表名( 字段 类型, 字段 类型, ....);【2】删除表drop table 表名;【3】创建有自增、缺省值的表create table 表名( 字段 类型 serlar, -- serlar类型的字段表示该字段为自增字段 字段 类型 default 值, -- default是关键字,后面的值代表字段的默认值 ....);【4】约束1、ch.

2020-07-22 11:50:36 1272

原创 【GP】Greenplum入门解析(一)

一、Greenplum概述【1】Greenplum简介Greenplum(以下简称GP)是一款开源数据仓库。基于开源的PostgreSQL改造,主要用来处理大规模数据分析任务,相比Hadoop,Greenplum更适合做大数据的存储、计算和分析引擎GP是典型的Master/Slave架构,在GP集群中,存在2个Master节点(一个Primary节点和一个Standby)和多个Segment节点,其中每个节点上可以运行多个数据库。GP采用shared nothing架构(MPP)。是典型的Shared

2020-07-21 17:32:09 5898 2

原创 【Linux】MySQL概念解析(二)

未完待续…

2020-07-05 22:31:28 1179

原创 【Linux】MySQL概念解析(一)

一、MySQL变量变量系统变量 全局变量 作用域:MySQL服务器每次启动将为所有的全局变量赋初始值,所以全局变量作用范围不能跨重启 会话变量 作用域:针对于当前会话有效 自定义变量 用户变量 作用域:针对于当前会话有效 局部变量 作用域:仅仅在定义它的begin end中有效。应用在begin end中的第一句话!!!系统变量【1】说明:变量由系统提供,不是用户定义,属于服务器层面【2】语法1、查看所有的系统变量show global variables;s

2020-07-03 23:10:55 1327

转载 【Java】MySQL事务入门解析

MySQL事务什么是事务?MySQL 事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你既需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务!在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务事务处理可以用来维护数据库的完整性,保证成批的 SQL 语句要么全部执行,要么全部不执行事务用来管理 insert,update,delete 语句在 MySQL 命令行的默认设置下,

2020-06-08 22:51:31 1078

原创 【Java】JVM入门解析(三)

堆概述1)一个JVM实例只存在一个堆内存,堆也是Java内存管理的核心区域2)Java堆区在JVM启动的时候即被创建,其空间大小也就确定了,是JVM管理的最大一块内存空间(堆内存大小是可以调节的)3)《Java虚拟机规范》规定,堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的4)所有的线程共享Java堆,在这里还可以划分线程私有的缓冲区(Thread Local Allocation Buffer,TLAB)5)数组和对象可能永远不会存储在堆上,因为栈帧中保存引用,这个引用指向

2020-06-05 17:21:09 1957 1

原创 【Java】JVM入门解析(二)

JVM一、运行时数据区概述架构图????Java虚拟机定义了若干种程序运行期间会使用到的运行时数据区,其中有一些会随着虚拟机启动而创建,随着虚拟机退出而销毁。另外一些则是与线程一一对应的,这些线程对应的数据区域会随着线程开始和结束而创建和销毁线程独享:程序计数器(PC寄存器)、栈、本地栈线程共享:堆、方法区(永久代或元空间)二、程序计数器(PC寄存器)简介:1)它是一块很小的内存空间,几乎可以忽略不计。同时也是运行速度最快的存储区域2)在JVM规范中,每个线程都有它自己的程

2020-06-04 17:15:42 2212 1

原创 【Java】JVM入门解析(一)

JVM【1】JVM概述HotSpot VM 是目前市面上高性能虚拟机的代表作之一,它采用解析器与即时编译器并存的架构JVM架构图如下????【2】JVM生命周期虚拟机的启动Java虚拟机的启动是通过引导类加载器(bootstrap class loader)创建一个初始类(initial class)来完成的,这个类是由虚拟机的具体实现指定的虚拟机的执行一个运行中的Java虚拟机有着一个清晰的任务:执行Java进程程序开始执行时他才运行,程序结束时他就停止执行一个所谓的Java进程的时

2020-06-03 23:17:02 2604 3

原创 【Linux】Shell入门解析

一、Shell概述为什么要学习Shell呢?1)需要看懂运维人员编写的Shell程序2)编写一些简单Shell程序来管理集群、提高开发效率Shell解析器1)Linux提供的Shell解析器有:cat /etc/shells /bin/sh/bin/bash/sbin/nologin/bin/dash/bin/tcsh/bin/csh2)bash和sh的关系sh 是 bash的软连接3)Centos默认的解析器是bashecho $SHELL/bin/bash

2020-06-02 23:11:49 4964 1

原创 【Git】Git入门解析

一、Git概述1、版本控制工具应该具备的功能【1】协同修改多人并行不悖的修改服务器端的同一个文件【2】数据备份不仅保存目录和文件的当前状态,还能够保存每一个提交过的历史状态【3】版本管理在保存每一个版本的文件信息的时候要做到不保存重复数据,以节约存储空间,提高运行效率。这方面 SVN 采用的是增量式管理的方式,而 Git 采取了文件系统快照的方式【4】权限控制对团队中参与开发的人员进行权限控制对团队外开发者贡献的代码进行审核——Git 独有【5】历史记录查看修改

2020-06-02 15:41:40 1883

原创 【Kylin】Kylin入门解析(二)

(图片来源于网络,侵删)一、可视化可以与Kylin结合使用的可视化工具很多,例如:ODBC:与Tableau、Excel、PowerBI等工具集成JDBC:与Saiku、BIRT等Java工具集成RestAPI:与JavaScript、Web网页集成Kylin开发团队还贡献了Zepplin的插件,也可以使用Zepplin来访问Kylin服务【1】JDBC1)新建项目并导入依赖<dependencies> <dependency> .

2020-06-01 10:56:13 2730

原创 【Java】Java回顾之路(二)

【1】请你简单描述一下String、StringBuffer、StringBuilder?String:不可变的字符序列,底层使用char[]存储StringBuffer:可变的字符序列,线程安全的,效率低,底层使用char[]存储StringBuilder:可变的字符序列,线程不安全的,效率高,底层使用char[]存储StringBuffer和StringBuilder默认构造器会初始化一个长度为16的char[],数据不断append后,如果出现char[]容量不够的情况,会进行扩容,默认情况下

2020-05-17 22:43:19 1875

原创 【Java】Java回顾之路(一)

【1】请你简单描述一下正则表达式及其用途?在处理字符串时,经常会有 查找符合 某些 复杂规则的字符串的需要,正则表达式就是用于 描述这些规则的工具【2】请你说明一下,在Java中如何跳出当前的多重嵌套循环?在最外层循环前加一个标记如 stop ,然后用 break stop; 可以跳出多重循环public static void main(String[] args) throws ParseException { int num = 0; stop: while (true)

2020-05-16 16:40:24 1942

原创 【Spark】SparkCore深入解析(一)

(图片来源于网络,侵删)textFile() 与 sc.wholeTextFiles的区别 1)当指定的路径是目录且该目录下全部都是文件时,textFile() 和 wholeTextFiles() 都正常读取 2)当指定的路径是文件时,textFile() 和 wholeTextFiles() 都正常读取 3)当指定的路径是目录且该目录下既有文件也有目录时,textFile() 会报错, wholeTextFiles() 正常读取该目录下的所有文件 1)textFile读取文件.

2020-05-15 15:13:21 2076 1

hadoop2.6.0-64-bin.zip

替换windows的hadoop\bin目录,再将hadoop.dll复制一份到c盘windows\system32目录下

2019-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除