枯木逢椿_-CSDN博客

原创不是Azkaban囚徒而是开源Azkaban的介绍【无配置】

一、简介Azkaban是一个开源的批量工作流任务调度器用于在一个工作流内以一个特定的顺序运行一组工作和流程Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流二、工作流调度系统1.为什么需要工作流调度系统1 .一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreducer程序，hive脚本等2 .各任务单元之间存在时间先后及前后依赖关系3 .为了很好地组织起这样的复杂执行计划，需要

2020-07-30 11:48:47 186 1

原创 Kafka 入门介绍【一遍了解Kafka内部构造】

概念Kafka是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中所有动作流数据。即Kafka是一个分布式的、可分区的、可复制的消息系统。Kafka将消息以topic为单位进行归纳将向Kafka topic发布消息的程序为priducers.将预定topic并消费信息的程序称为consumer.Kafka以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个broker.producers通过网络将消息发送到Kafka集群，集群向消费者提供消息，如图：Topics 和Log

2020-07-30 10:39:19 129

原创 Apache Sqoop工具使用【原理详解】

Sqoop是一款开源的工具，主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。Sqoop架构Sqoop1：由client端直接接入hadoop，任务通过解析生成对应的mapreduce执行Sqoop2：服务端部署，运行。提供cli,rest,api,webui等入口，c

2020-07-30 09:45:23 226

原创 Apcah-Flume(水槽)的非官方介绍

Flume(水槽)的概述Apach Flume是一个分布式的、可靠的、可用的系统，用于有效的收集、聚合和将大量的日志数据从许多不同的源移动到一个集中的数据存储Apach Flume的使用不仅仅局限于日志数据的聚合。由于数据源是可定制的，Flume可以用于传输大量事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源它具有鲁棒性和容错性，具有可调的可靠性机制和多种故障转移和恢复机制。它使用了一个简单的、可扩展的数据模型，允许在线分析应用程序Flume(水槽)的优

2020-07-28 16:24:28 128

原创 Hive知识全解

Hive的三种模式Local模式：连接到一个In-Memory的数据库Derby，一般用于UnitTest。单用户模式：通过网络连接到一个数据库中，最常使用到的模式。多用户模式：远程服务器模式，用于非java客户端访问元数据(metastore)，在服务器端启动metastoreServer，客户端利用thift协议通过metastoreServer访问元数据库。Hive的架构用户接口主要有三个，Cli，Client，WebGUI，其中最常用到的就是Cli，Cli启动的时候会同时会启

2020-07-28 15:25:42 150

原创 HBase知识全解

HBase简介HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储HBase是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数

2020-07-28 15:25:18 141

原创搭集群工作流程

集群配置：两个脚本文件：（配置在/home/jinghang/bin下） 1）jpsall #!/bin/bash for((i=1;i<4;i++)) do echo ----------------------hadoop0$i---------------------------- ssh hadoop0...

2019-12-19 21:16:37 175

原创 Hadoop组成及HDFS框架、YARN框架、MapReduce框架。

【1】每分钟清空/tmp/内容 */1 * * * * /bin/rm -rf /tmp/* 每个星期三的下午六点和八点的第5到15分钟之间备份/home/jinghang文件夹下的数据到/opt/software 5-15 18,20 * * 3 /bin/cp /home/j...

2019-12-17 21:16:58 130

原创关于学习Shell中的数组，运算符以及流程控制，函数和工具的使用。

当天的计划当天工作内容未完成内容预计完成时间完成百分比Shell中的数组： (1) #!/bin/bash my_array=(A B "C" D) 也可使用下标来定义数组： array_name[0]=value0 ...

2019-12-16 22:17:50 122

原创 Shell解析器与脚本，系统、自定义与特殊变量的自我见解与常用语法

Shell解析器： cat /etc/shells （Linux提供的Shell解析器有） ll | grep bash (bash和sh的关系) echo $SHELL (Centos默认的解析器是bash)Shell脚本：脚本以 #!/bin/bash ...

2019-12-14 17:07:11 191

原创 Linux：学习磁盘分区、进程线程、定时任务与RPM和YUM仓库配置。

mount/umount 挂载/卸载对于Linux用户来讲，不论有几个分区，分别分给哪一个目录使用，它总归就是一个根目录、一个独立且唯一的文件结构。 Linux中每个分区都是用来组成整个文件系统的一部分，Linux采用一种叫做”挂载“的处理方法，它整个文件系统中包含了一整套的文件和目录，并将一个分区和一个目录联系起来，要载入的那个分区将使他它的存储空间在这个目录...

2019-12-13 21:48:26 466

原创关于Linux的命令与用法

常见的发行版本：Ubuntu Redhat Fedora openSUSE Linux Mint Debian ...

2019-12-13 09:53:58 211

weixin_46014985的博客