自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 DataX笔记1 —— JSON文件配置

DataX使用经验

2022-06-28 23:17:42 1972 1

原创 Hive框架(三) —— 解析json数组

解析json数组的函数通常有get_json_object() json_tuple() split() explode() regexp_replace() lateral viewget_json_object() 一次只能解析一个key,当需要解析多个字段时,不好用于是使用 json_tuple() 函数,结合lateral view() 使用一个解析json数组的思路:对于如下的字段,其中内容是[{"website":"baidu.com","name...

2022-05-02 15:35:00 1672

原创 Hive框架(三) —— Hive SQL语句的执行顺序

HQL的语句执行顺寻与SQL有一定的差别Hive SQLFrom - where - join - on - select - group by - select - having - distinct - order by - limit - union/union allMap 阶段: 执行 from,进行表的查找与加载; 执行 where,注意:sql 语句中 left join 写在 where 之前的,但是实际执行先执行 where 操作,因为 Hive 会对...

2022-05-02 11:24:08 4852

原创 Hive框架(二) —— Hive与传统数据库对比

Hive RDBMS 查询语言 Hive SQL SQL 是否支持索引 3.0后删除 支持复杂的索引 是否支持事务 可认为不支持 支持事务 是否支持更新 不支持 支持 是否支持视图 支持(但不推荐) 支持 执行引擎 MR,Tez, Spark Executor 处理数据规模大小 大 小 数据更新Hive是数仓建设工具,无法改变数据,因此不能进行数...

2022-05-02 11:10:10 1643

原创 大数据组件学习5 —— Hive(一)

Hive是基于Hadoop的数仓建设工具,严格意义上不算数据库,只是将HDFS中的数据映射成为一张表,本身并不存储数据,适合对历史数据做离线批处理分析。本文主要梳理归纳了关于Hive优化方面的知识点1. 存储与压缩优化一般在map输出阶段,最终输出阶段对结果进行压缩,一般采用 ORC/Parquet + snappy方式顺便小结 ORC与Parquet的区别:ORC为列式存储结构由stripe组成,stripe相当于RowGroup(行组)的概念,每个Stripe包含 Index

2022-05-02 10:50:20 92

原创 Spark框架(一) —— 缓存与checkpoint

今天开始挖新坑,开始总结Spark, 同时变更一下标题样式, 使内容更加明显。jSpark的核心在于RDD(弹性分布式数据集),但RDD具有一个特性:只在处理过程中存在,一旦处理完释放。这个特性的目的在于:最大化利用资源,老旧的RDD没用了,就从内存中清理,给后续计算腾空间但是存在如下场景:后续的RDD‘需要基于之前某个被清理的RDD进行继承,但RDD早就被清理了为了避免上述情况:使用持久化技术来解决持久化技术分为两类缓存 : 将某个RDD放入内存或者磁盘中,以备后续...

2022-04-27 09:11:03 878

转载 大数据组件学习7 —— HDFS(三)

详细说一下NameNode中的Fsimage和edit文件,与元数据有关的文件有5种,分别是:1. Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件idnode的序列化信息;2. Fsimage.md5文件:是镜像文件的 md5 校验文件,这个校验文件是为了判断镜像文件是否被修改;3. Edits文件:存放HDFS文件系统的所有更新操作,文件系统客户端执行的所有写操作首先会被记录到Edits文件中4. seen_txid文件:它代表的是 na

2022-04-24 08:50:26 135

原创 大数据组件学习6 —— HDFS(二)

之前说了HDFS的组件,尤其是 NN, DN, 2NN的工作机制,这回整理下HDFS的block块与副本机制,读写过程1. HDFS的block块HDFS中存储的文件都以block的形式放在DN中,Hadoop 2.X中采用每个block的默认大小128M, 可以调整,主要看网络IO,磁盘IO的能力,设置太小,寻址时间过长,设置太大MR处理时间过长以block存储文件的好处:可存储比磁盘空间大的文件 块的形式可以简化存储子系统 块的形式非常适合数据备份从而提供系统容错性2.副本机制..

2022-04-23 15:07:39 1145

原创 数据库学习小结(一)

通过数据库刷题,完成对数据库知识点的查漏补缺1. 关系型数据库和非关系型数据库关系型: MySQL, Oracle, DB2, SQL Server非关系型:MongoDB, NoSQL, Cloudant, Redis, HBase注意: Hive不是数据库,只是一种基于Hadoop的数仓建设工具,数据实际存在HDFS(HDFS是分布式文件系统,也不是数据库)2. SQL语句SQL语句具有的功能:数据定义,数据操纵,数据控制3. Drop table restric..

2022-04-23 11:25:12 73

原创 大数据组件学习4 —— HDFS(一)

Hadoop生态系统包含众多框架,从Hadoop框架本身开始,Hadoop本身包含三个组件 HDFS, Yarn, MapReduce,分别对应海量数据存储,资源调度,海量数据计算。 (讨论的是Hadoop 2.X,Yarn代替了1.X的 JobTracker)一、HDFS, 又称 分布式文件系统,为适应海量数据的存储问题而设计,主要包含三个部分 NameNode, SecondaryNameNode, DataNode1.1 NameNode(NN)NN管理元数据信息,以及每一个文件对应的块信

2022-04-20 11:27:40 296

原创 大数据组件学习3 —— Kettle

Kettle, 现名 PDI ,是一款开源的ETL工具,基本概念包括1. Transformation 和 JobTransformation, 转换, 处理各阶段对数据行的操作,并行处理组件.基本分发方式分发:以轮流的方式将一行数据发个一个一个数据流 复制:将一行数据发给所有数据流基本组成部分步骤(steps):每一个步骤都对应一个独立的线程,所有步骤以并发方式进行。转换一旦启动,所有步骤同时运行,从输入条读取数据,将处理过的数据输出到输出跳 跳(hops) : 步骤之间的连线.

2022-04-17 20:25:12 961

原创 大数据组件学习2 —— Sqoop

一、Sqoop进行数据导出接着说Sqoop, 关于Sqoop导出, 导出前需要先在RDBMS中创建表,在从Hive, HDFS等存储组件中导出数据1.1 默认模式 bin/sqoop exportbin/sqoop export --connect jdbc:mysql://localhost:3306/test \--username root \--password ****** \--table XXX \--export-dir YYY \默认模式就是将HDFS...

2022-04-17 10:40:42 1419

原创 大数据组件学习1——Sqoop

bin/sqoop import \--connect jdbc:mysql://localhost:3306/test \--username root \--password 123456789 \--delete-target-dir \-

2022-04-10 17:53:36 2043

原创 MySQL删除表的三种方法以及delete与truncate的区别

1.drop table A drop table XXX 是完全删除某个表,且无法找回2.delete from A delete from 在删除时保留了日志,可以rollback, 即数据可以恢复,并可以同where连用,条件性删除3.truncate table A truncate table 是在原表基础上创建一张新表,由于没有保留日志,数据不可以恢复 关于delete 与 truncate的区别delete是不删除索引,新的数据插入时在删除数据

2022-04-06 23:51:36 2107

原创 Linux系统安装的几种方式

Linux 安装的几种方式CD 光驱安装U盘安装PXE远程无人化安装注:PXE安装时,先安装DHCP服务器 , 再安装TFTP服务器,最后NFS服务器安装,挂载ISO镜像,PXE引导启动安装

2022-04-06 08:07:06 377

原创 Linux “ll“ 命令详解

“ls -l” "ls -al" ll 用来查询当前目录下文件及目录的详情1. 第一位文件类型- 普通文件 , d 目录文件,I 链接文件,p 管理文件, b 块设备文件, c 字符设备文件, s 套接字文件2.文件属性第一部分表示文件创建者/所有者权限,第二部分表示同组其他用户的权限,第三部分表示其他组用户的权限,权限也可以用数字代替444 r--r--r--600 rw-------644 rw-r--r--666 rw-rw-rw-700 rwx------74.

2022-04-02 10:48:06 32680 2

原创 字节跳动 —— 2023暑期实习面试

记录下字节数据平台部门的面试

2022-03-30 08:18:49 2327 1

原创 Excel 快速添加空白列或者行

Excel 快速添加空白列或者行最终效果:快速添加任意数量的空白行或者列步骤:**选中某一行 —— 按住Shift **鼠标移动至此行的下沿等到光标变成双横线 —— 向下或者向上拖动任意行数

2020-07-09 17:42:26 582

原创 Excel 快速交换行与列

Excel 快速交换行与列最终效果:在表格内快速拖动一行或者一列,交换行与列的位置步骤:1. 选中某一行或者某一列2. 按住 Shift 键3. 拖动选中的行或者列到指定位置

2020-07-09 17:38:43 960

原创 Excel 快速指定区域单元格

Excel 快速指定区域单元格最终效果:快速准确地选中单元格区域步骤:1. 按“Shift” —— 点击起始单元格2. 点击最终单元格

2020-07-09 17:35:29 247

原创 Word快速构建座位表

Word快速构建座位表最终效果:将零碎的文本放入word表格中,单元格之间添加间距步骤:1. 选中需要的文本2. 建立表格:“插入” —— “表格” —— “文本转换为表格” —— 自定义列数3. 选中表格 —— “表格属性” —— “选项” —— 勾选“允许调整单元格间距” —— 自定义间距 ​​​​​​​...

2020-07-09 17:31:57 139

原创 Excel统一添加前缀与后缀

Excel 统一添加前缀与后缀添加前缀步骤:(1)选取区域(2)设置单元格格式(3)自定义 —— 输入“XX - @” , 实现前缀的自动添加(2)添加后缀用于给数字添加单位步骤:(1) 选中区域(2)设置单元格格式(3)自定义 —— 在“”G/通用格式“后添加 “XX” , XX即为单位。实现数字后单位的自动添加小结:设置单元格格式, XX-@, G/通用格式“XX”...

2020-06-19 23:11:01 3560 1

原创 Excel 小例子

Excel 小例子自动添加表格边框步骤:“条件规则” —— 输入“=” —— 点击单元格 —— 按两下F4键 —— 设置“格式” —— 选择边框样式 —— 确定快速变更格式(1) ctrl + shift + 2 时间格式(2) ctrl + shift + 3 日期格式(3) ctrl + shift + 4 货币格式(5) ctrl + shift + 5 百分比格式...

2020-06-18 10:27:30 140

原创 Excel快速对比两张表

Excel快速核对两张表步骤如下:步骤小结:(1) 点击条件格式 ,选择“使用公式设置…”选项(2)选择sheet1中的区域(3)再输入<>(4) 获得sheet2中需要对比的区域(5)删除美元符号(6)“格式”中选定一个颜色(7)确定...

2020-06-16 11:07:34 530

原创 使用python-docx将xls的信息自动化入word的表格之中

工作中可能会遇到需要将excel表格信息导入word表格中的情况,特别是当有几百条信息需要录入的时候,手动操作真心浪费时间。利用Python写一个自动化的小脚本,避免简单机械性的重复劳动。下面讨论一下使用python-docx来提高工作效率。工作中场景需求并不相同,请各位看官老爷们根据实际需要自行理解。场景需求如下:将.xls中的N条信息分别填入word的表格中,每一行信息对应一个...

2020-04-25 20:40:04 413

原创 CUDA官网下载链接失效时,如何下载对应Windows版本的CUDA, cuDNN,亲测有效~~~

最近开始入坑深度学习,还是需要GPU(虽然显卡挺渣960M,但总还是比CPU强啊。。。。),然而目前来看是官网下不了,后来侯然尝试发现一种解决方案:利用Ubuntu系统进入官网即可下载!本人因开发需要 安装Ubuntu16.04+win10(家庭版),重启进入Ubuntu16.04 然后成功下载亮哥文件,在进window安装正常...

2018-08-23 15:41:06 3009 3

转载 matplotlib画图时保存图片空白的问题,

如何解决画图的问题,写论文需要eps,导入latex,结果预览结果为空表,后来发现是下面的情况导致:  jupyter notebook在一行保存不会有空白plt.plot(x, np.sin(x))plt.savefig('figures/02.03-sine.png')1 2分两行运行,则出现保存的空白。参考: http://blog.csdn.net/u010...

2018-08-02 10:24:58 9066 3

转载 使用LaTeX时,文章内容出现 & 时,应当使用 \& 来代替,否则编译器会认为是引用,报错

  本人在写论文时,在MikTex2.9+Textmaker环境下,在文章内容中出现了 &amp; 符号,编译时显示 !Misplaced alignment tab charactristic.之后修改为   \&amp;   ,即可成功编译。下面链接是一个LaTex使用指南,适合初学者!https://www.sharelatex.com/learn/Errors/Mispla...

2018-07-29 17:51:12 2005

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除