自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Shell

1.概述 shell是一个命令行解释器,接收应用程序/用户的命令,然后调用操作系统内核 还是一个功能强大的编程语言,易编写,易调试,灵活性强 2.Shell解释器 linux提供的解释器有 cat /etc/shells /bin/sh /bin/bash /sbin/nologin /bin/dash /bin/tcsh /bin/csh bash和sh的关系 ll | grep bash 3.Shell中的变量 系统变量 $HOME、$PWD、$SHELL、$USER等

2021-05-19 14:35:17 52

原创 ElasticSearch

ElasticSearch(Java语言全文检索) 1.es特性: 安装方便:没有其他依赖,下载后安装非常方便;只用修改几个参数就可以搭建起来一个集群 JSON:输入/输出格式为 JSON,意味着不需要定义 Schema,快捷方便 RESTful:基本所有操作(索引、查询、甚至是配置)都可以通过 HTTP 接口进行 分布式:节点对外表现对等(每个节点都可以用来做入口);加入节点自动均衡 多租户:可根据不同的用途分索引;可以同时操作多个索引 2.集群 其中一个节点就是一个ES进程,多个节点组成一个集群,一

2020-10-18 12:22:06 78

原创 Azkaban

Azkaban(工作流调度器) 1.为什么需要工作调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序 java程序 MapReduce程序 hive脚本 各任务单元之间存在时间先后及前后依赖关系 为了更好组织起这样复杂的执行计划,需要一个工作调度系统来调度执行 比如我们每天需要处理20G的业务原始数据,步骤如下: 通过hadoop先将原始数据同步到HDFS上 借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张hive表中 需要对Hiv

2020-10-18 12:20:43 58

原创 Linux

Linux 1.CentOS网络配置三种方式的理解 桥接模式 大家都在同一个网段,相互可以通讯 因为IP地址有限,可能造成ip冲突 Nat(网络地址转换模式) 虚拟机不占用其他的ip所以不会ip冲突 内网的其他人不能和虚拟机通讯 主机模式 单独的一台电脑 2.在linux世界里,一切皆文件(即使是一个硬件设备,也是使用文本来标志) 3.Vi和Vim编辑器 Vim具有程序编辑的能力,可以看Vi的增强版本,可以主动以字体颜色辨别语法的正确性,方便程序设计.代码补充,编译即错误跳转等方便编

2020-07-16 18:55:21 81

原创 Java

1.跨平台原理 平台:指的是操作系统(Windows,Linux,Mac) 跨平台:Java程序可以在任意操作系统上运行,一次编写到处运行 原理:实现跨平台需要依赖Java的虚拟机JVM(Java Virtual Machine) 2.JVM,JRE,JDK JVM:java虚拟机,java程序需要运行在虚拟机上,不同平台有自己的虚拟机,因此java语言可以跨平台 JRE:包括Java虚拟机和Java程序所需要的核心类库等,如果想要运行一个开发好的Java程序,计算机中只需要安装JRE即可 JRE:

2020-07-14 23:36:30 121

原创 Hive

1.OLAP(联机分析技术) 什么是hive 由Facebook开源用于解决海量结构化日志的数据统计。 基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 hive的本质就是将HQL 转换成mapreduce任务的工具 hive利用HDFS存储数据,利用MapReduce查询分析数据 特点 hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上 2.Hive优缺点 优点: 操作接

2020-06-27 01:15:23 219

原创 Spark1

Spark 1.优势 ​ Spark中的job中间输出结果可以保存在内存中,从而不再需要读写HDFS 2.特点 快:Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流 易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用 通用:Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark S...

2019-07-01 17:45:25 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除