自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhangsq1319

快乐源于分享

  • 博客(133)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据运维学习之路

hadoop 组成 原理 flink 组成 原理 hive 组成 原理 zookeeper 组成 原理 spark 组成 原理 hbase 组成 原理 kafka 组成 原理 Impala 组成 原理 storm 组成 原理 elasticsearch 组成 原理 flume 组成 原理 azkaban 组成 原理 Oozie 组成 原理 CDH 组成

2020-05-25 10:14:47 934

原创 Linux下快捷键及常用命令

Linux下快捷键1、shell CLI下快捷键1、ctrl+a :回到行首2、ctrl+e : 回到行尾3、ctrl+k : 切除当前位置到行尾4、ctrl+u : 切除当前位置到行首2、vim下快捷键1、gg : 回到首行2、G :回到末行3、dd :删除当前行 3dd:删除当前向下的三行(不含当前行)4、yy:复制当前行...

2020-02-22 18:15:07 277

原创 python学习之路(重点)

python学习之路python学习之路是为了树立python学习路径,梳理python知识1、python语言基础  (1)Python3入门,数据类型,字符串  (2)判断/循环语句,函数,命名空间,作用域  (3)类与对象,继承,多态  (4)tkinter界面编程  (5)文件与异常,数据处理简介  (6)Pygame实战飞机大战,2048...

2020-02-19 09:12:32 471

转载 运维工程师的学习之路

2019-12-04 01:34:58 354

原创 idea下maven配置的java项目打jar包

在idea中新建一个普通maven项目在file--->new--->Project选择maven项目,直接next(非javaee项目)填写项目信息位置和名称自行定义,然后finish;配置pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/

2020-11-17 00:28:40 526 1

原创 SecureCRT最佳实践

1、背景颜色及透明度设置(根据数字顺序设置):1,选项--->2全局选项颜色:1终端--->2外观--->3高级--->4白/黑(可自定义,新建)透明度:5透明度设置,预估2252、中断、字体、行列显示设置(每个会话单独设置):1)防止长时间不操作中断选项:2)字体设置:3)行列显示设置:...

2020-08-25 12:15:27 421

原创 pycharm编写pyspark设置

1、安装好pycharm后,打开pycharm创建项目2、创建项目,指定python位置(可用python虚拟环境)2.1、配置pycharm环境然后:apply==>ok2.2 、添加spark安装包下面的python文件夹中的两个pyspark的zip包3、配置流程4、提交代码到spark上运行...

2020-07-10 14:06:40 470

原创 spark RDD与DataFrame的相互转换

一、RDD与DataFrame的区别 a.DataFrame的write.jdbc,仅支持四种模式:append、overwrite、ignore、default b.使用rdd的话,除了上述以外还支持insert 和 update操作,还支持数据库连接池 (自定 义,第三方:c3p0 hibernate mybatis)方式,批量高效将大量数据写入 Mysql 方式一: DataFrame转换为RDD相对来说比较简单,只需要调用...

2020-07-08 18:28:38 734

原创 spark学习路径(python版)

1、spark只是一个计算引擎,可以通过多种语言与其交互,我选择的是python2、熟练python编程基础3、查看官网文档http://spark.apache.org/docs/latest/quick-start.html http://spark.apache.org/docs/latest/api/python/index.html4、python是通过各种第三方类库与spark交互:如pyspark5、不管是sparkCore,sparkSQL,sparkStreamin

2020-07-08 12:24:21 304

原创 SparkSQL官方文档——读取win10本地文件

# -*- encoding: utf-8 -*-"""@File : sparkSql_tableOpe.py@Time : 2020/7/8 11:47@Author : zhangsongqing@annotation: XXX"""from pyspark.sql import SparkSessionfrom pyspark.sql.types import *spark = SparkSession.builder.master('local').config.

2020-07-08 12:04:44 567

原创 SparkSQL官方文档——学习方法解读

1、SparkSQL官方文档学习方式:2、点击:Getting Started

2020-07-08 10:56:48 210

原创 pyspark官网文档解读学习-学习方法(0)

1、界面整体及模块说明2、类说明3、每一个类为一个分界线

2020-07-06 16:48:40 399

原创 pySpark的worldCount

第一次通过python编写spark: 通过python编写spark需要通过pyspark这个类库来操作spark;pyspark官网:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD参考:https://blog.csdn.net/lc_1123/article/details/79007231https://www.jianshu.com/p/b5e949261cfdhttps...

2020-07-06 09:37:37 274

原创 MySQL-5.7.X二进制安装

1、下载mysql二进制安装包wgethttps://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.30-linux-glibc2.12-x86_64.tar.gz2、解压配置环境变量#添加mysql用户useradd mysql#创建mysql工作目录mkdir /usr/local/mysql && chown -R mysql. /usr/local/mysql#解压mysql二进制安装包到工作目录tar -z.

2020-06-26 21:33:07 118

原创 yum基础操作

来源:base来源为linux自带@:表示已安装

2020-06-05 11:47:54 140

原创 Java IO

java IO分类字节流:字符流:输入:读取外部数据(磁盘、光盘等存储设备的数据)到程序(内存)中。输出:将程序(内存)数据输出到磁盘、光盘等存储设备中字节流读取:字符流读取:数据在真正readline时才会触发去读取;...

2020-06-02 14:44:39 90

原创 spark基础(1)

1.spark出现原因MapReduce缺点spark架构spark分为Master节点和slave节点,ApplicationMaster资源调度,Executor执行具体的task;2.yarn架构yarn由RM和NM组成,每个在yarn上运行的计算框架只需要实现AM接口,做到不同类型计算框架都可以在yarn运行;每个运行在yarn上的任务都有一个AM;AM做到了RM与Driver的桥梁;具体作业任务由Driver调度;spark只是一个计算框..

2020-06-01 18:33:52 259

原创 keepalived工作原理

VRRP(Virtual Router Redundancy Protocol,即虚拟路由冗余协议):1)VRRP是用来实现路由器冗余的协议。2)VRRP协议是为了消除在静态缺省路由环境下路由器单点故障引起的网络失效而设计的主备模式的协议,使得发生故障而进行设计设备功能切换时可以不影响内外数据通信,不需要再修改内部网络的网络参数。3)VRRP协议需要具有IP备份,优先路由选择,减少不必要的路由器通信等功能。4)VRRP协议将两台或多台路由器设备虚拟成一个设备,对外提供虚拟路由器IP(一个或多个).

2020-05-28 15:10:54 295

原创 impala常见优化策略

impala常见优化策略 分区不能超过3w多 要执行compute stats xxx 表 join时,把小表写前面,会把小表广播到其他节点。 选择parquert 格式存储。 刷新Impala invalidate metadata时,跟上表,禁止直接执行invalidate metadata ...

2020-05-25 17:48:13 660

原创 HBase数据读取流程

HBase数据读取流程 一、数据读取流图client发起数据查询 client从zk获取hbase:meta表的位置(位置是一个regionServer的地址) 根据从zk获取的hbse:meta表的位置访问对应的regionServer,并且将hbase:meta表数据缓存到内存中,然后根据rowkey从meta表中获取对应region及regionServer的位置 client直接同region所在的regionServer通信,获取数据...

2020-05-22 15:24:52 280

原创 Kafka为什么那么快?

Kafka为什么那么快?从写入与读取两个方面来介绍:一、写入磁盘顺序I/O,分区数据顺序追加 Memory Mapped File(mmap内存映射文件),内存中操作的文件直接映射到本地文件二、读取基于sendfile零拷贝技术,直接将分区文件发送给消费者,省去了本地分区文件拷贝到内核空间、从内核空间拷贝到用户空间、用户空间拷贝到socket缓冲区三个步骤; 消息批量发送和数据压缩,减少了网络IO...

2020-05-22 14:06:13 182

原创 yarn资源调度

调度流程图client向resourcemanager(RM)提交任务 RM在某一个nodeManager(NM)启动一个对应的applicationMaster(AM) AM向RM注册自己及申请任务需要的资源 RM要求对应NM启动相应的Container AM发送请求到对应NM,启动任务 NM设置Container的运行时环境(jar包,环境变量,任务启动脚本),NM会通过脚本启动任务 启动的过程是由NM的ContainerLauncher负责的,ContainerLauncher完成启

2020-05-19 23:45:33 197

原创 spark-submit提交pyspark任务是引入第三方依赖包

/etc/alternatives/spark-submit \--master yarn \--deploy-mode cluster \--name md_day_dump_user \--conf "spark.pyspark.driver.python=/home/uther/miniconda2/envs/uther/bin/python3" \--conf "spark.pyspark.python=/home/uther/miniconda2/envs/uther/bin/pyth.

2020-05-19 22:56:47 1757

原创 hive_架构

hive_架构 hive整合hadoop一起分为以下几个模块:client,metastore,driver,hdfs等 hive的用户接口 hive cli 命令行模式,使用最多,较为方便 ./bin/hive -e 'select * from test' 执行指定sql,无需进入hive交互式命令行 ./bin/hive -S -e 'select * from test' 静音模式,只输出结果,不输出MapReduce执行过程 ./...

2020-05-17 23:55:09 132

原创 hive_介绍

hive_介绍 hive是基于Hadoop的一个数据仓库工具。它可以将一个结构化数据文件映射成为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为Mapreduce任务进行运行。 hive与关系型数据库的区别:存储文件的系统不同,hive使用HDFS,关系型数据库使用服务器本地的文件系统; hive使的计算模型是Mapreduce,而关系型数据库使用的是自己设计的计算模型; 关系型数据库为实时查询业务设计的,而hive则是为了海量数据挖掘设计的,实时性很差; hi...

2020-05-17 23:06:56 248

原创 Linux之RPM包操作

RPM是一种用于互联网下载包的打包及安装工具,它包含在某些Linux分发版中,它生成具有RPM扩展名的文件,RPM是RedHat Package Manager(RedHat软件包管理工具)的缩写,类似windows的setup.exe,这一文件格式名称虽然打上了RedHat的标志,但理念是通用的;查找对应rpm包:rpm –qa | grep xxx 卸载对应rpm包:rpm -e xxx #加上--nodeps 表示强制卸载,一般卸载低版本时使用 安装对应rpm包:rpm...

2020-05-13 23:47:50 94

原创 Centos7.X安装impala(RPM方式)

Centos7.5安装Impala一、安装包准备1.1、Impala下载地址http://archive.cloudera.com/beta/impala-kudu/redhat/7/x86_64/impala-kudu/0/RPMS/x86_64/1.2、impala依赖下载地址http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.9.0/RPMS/noarch/1.3、Impala其他依赖cyrus-..

2020-05-12 21:36:08 3466 15

原创 Linux命令date

1、

2020-04-27 15:53:19 163

原创 elasticsearch磁盘不足造成index只读

1、logstash报错[INFO ][logstash.outputs.elasticsearch] retrying failed action with response code: 403 ({"type"=>"cluster_block_exception", "reason"=>"blocked by: [FORBIDDEN/12/index read-only / ...

2020-04-27 14:57:48 2302

原创 算法时间复杂度

1、什么是算法时间复杂度算法的时间复杂度,用来度量算法的运行时间,记作: T(n) = O(f(n))。它表示随着 输入大小n 的增大,算法执行需要的时间的增长速度可以用 f(n) 来描述。2、表示形式将问题抽象成数学函数表达式:T(n) = 0.5n^2 + 0.5n如何推导出时间复杂度呢?有如下几个原则: 如果运行时间是常数量级,用常数1表示; 只保留时间函数...

2020-04-22 14:08:43 348

原创 Hbase数据写入流程

1、组件架构图2、相关概念1)Regiontable在行的方向上分隔为多个Region,或者说是根据rowkey分割。Region是HBase中分布式存储和负载均衡的最小单元,即不同的region可以分别在不同的Region Server上,但同一个Region是不会拆分到多个server上。Region按大小分隔,表中每一行只能属于一个region。随着数据不断插入表,regi...

2020-04-21 20:59:22 1527

原创 spark-submit任务提交参数说明

1、任务提交实例#!/bin/bashecho "|--------------------------------------开始提交任务 NewKafka2Hbase---------------------------------------"echo "|提交开始时间:"$(date "+%Y-%m-%d %H:%M:%S")/home/app/spark-2.1.1/bin...

2020-04-17 17:41:41 656

原创 Linux命令vim模式

vim模式三种模式:命令模式,编辑模式,末行模式1、概览2、进入文本时既是命令模式在命令模式可以复制:yy,粘贴:p,回首行:gg,回末行:G,删除:dd3、从命令行模式进入编辑模式输入a:在该字符后面开始输入输入i:在该字符前面开始输入输入o:另起一行开始输入4、从命令模式到末行模式直接输入“ :”或者“ /”进入末行模式在末行...

2020-04-17 10:11:07 181

原创 Linux命令之& and nohup

& and nohup当我们在终端或控制台工作时,可能不希望由于运行一个作业而占住了屏幕,因为可能还有更重要的事情要做,比如阅读电子邮件。为了使这些进程能够在后台运行,也就是说不在终端屏幕上运行,有几种选择方法可供使用。1、&当在前台运行某个作业时,终端被该作业占据;可以在命令后面加上& 实现后台运行。例如:sh test.sh &适合在后台...

2020-04-15 18:37:53 259

原创 python函数装饰器(不含参数)

1、什么是函数装饰器函数装饰器是用于增强函数功能,在函数执行前或者执行后运行相应代码段、类似java中切面编程2、函数装饰器的运行逻辑def a_new_decorator(a_func): def wrapTheFunction(): print("I am doing some boring work before executing a_fun...

2020-04-11 17:47:07 167

原创 zookeeper集群安装部署

zookeeper集群安装部署1)下载并解压wgethttps://downloads.apache.org/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gztar -zxvfzookeeper-3.4.14.tar.gz2)配置环境变量vim~/.bashrc#zookeeperexport ZOOKEE...

2020-04-09 17:17:59 81

原创 深入理解Kafka_基本概念(1)

1、Kafka概念Kafka是一个由Scala语言开发的,多分区,多副本,基于zookeeper协调的分布式消息系统2、Kafka组成生产者,broker,消费者,zookeeper集群生产者:将消息发送到brokerbroker:将收到的消息存储到磁盘中消费者:从broker订阅并消费消息zookeeper:负责kafka集群元数据的管理,控制器的选举等操作...

2020-04-09 14:43:33 1074

原创 数据仓库DW、ODS、DM概念及其区别

数据仓库DW、ODS、DM概念及其区别在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL的是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程: Extract,数据抽取,也就是把...

2020-04-08 12:01:00 296

原创 httpd搭建本地yum源

1、安装httpdyum install -y httpd2、修改httpd配置文件(直接清空原配置文件,粘贴下面配置)#httpd.confServerRoot "/etc/httpd"Listen 6789 #端口可自行更改LoadModule autoindex_module modules/mod_autoindex.soInclude conf.mod...

2020-04-07 17:50:01 1716

原创 impala安装教程(rpm)

impala安装教程第一步:下载相关rpm包下载地址:http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5.14.0/RPMS/x86_64/需要下载jar包如下:impala-2.11.0+cdh5.14.0+0-1.cdh5.14.0.p0.50.el6.x86_64.rpmimpala-catalog...

2020-04-07 15:17:49 853

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除