飞少fly-CSDN博客

原创一篇搞定hive窗口函数

语法：分析函数 over(partition by分组列 order by排序列rows between 开始位置 and 结束位置)常用分析函数：聚合类 avg()、sum()、max()、min() 排名类 row_number() 按照值排序时产生一个自增编号，不会重复 rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位 dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位其他类 lag(列名,往...

2020-06-15 21:07:56 1781

原创 hive sql经典面试题

1、数据访客月份访问次数 A 2020-01 5 A 2020-01 15 B 2020-01 5 A 2020-02 8 B 2020-03

2020-06-15 20:54:15 1789 1

原创 idea报 @Override is not allowed when implementing interface method解决方法

@Override is not allowed when implementing interface method的解决办法:第一种:将Language level改成图中所示选择Modules，修改“Language Level” 为 “8-Lambdas,…”;选择Project，修改“Project language level” 为 “SDK default”。第二种:Settings > Modules > Javac > 修改Project b.

2020-06-14 20:04:47 508

原创 Azkaban工作流调度器原理

1. 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成； shell脚本程序、java程序、mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行当然好多公司都开发自己的调度系统 2. Azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程

2020-06-05 21:17:06 557

原创 5.创建Sqoop作业

Sqoop作业将事先定义好的数据导入导出任务按照指定流程运行语法 sqoop job (generic-args) (job-args) [-- [subtool-name] (subtool-args)]1.1 创建作业 --create 创建一个名为myjob,实现从mysql表数据导入到hdfs上的作业注意在创建job时，==命令"-- import" 中间有个空格== sqoop job \--create .

2020-06-02 19:41:50 254

原创 4.sqoop增量导入

1.增量导入hdfs在实际工作当中，数据的导入很多时候都是全量的导入一次,之后只需要导入增量数据即可，并不需要将表中的数据全部导入到hive或者hdfs当中去，肯定会出现重复的数据的状况，所以我们一般都是选用一些字段进行增量的导入，为了支持增量的导入，sqoop也给我们考虑到了这种情况并且支持增量的导入数据增量导入是仅导入新添加的表中的行的技术。它需要添加 ‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。 --in.

2020-06-02 19:41:38 1083

原创 3.sqoop过滤数据导入hive表(where和query条件)

1.导入表数据子集到hdfs(可以改成导入到hive,举一反三) 导入表使用Sqoop导入工具，"where"子句的一个子集。它执行在各自的数据库服务器相应的SQL查询，并将结果存储在HDFS的目标目录。按照条件进行查找，通过--where参数来查找表emp当中dept字段的值为 TP的所有数据导入到hdfs上面去 sqoop import \--connect jdbc:mysql://node2:3306/userdb \--username root --password.

2020-06-02 19:41:26 5974 1

原创 2.sqoop全量数据导入hive表

1.导入关系表到Hive中(需要手动创建好hive表)(1) 将我们mysql表当中的数据直接导入到hive表中的话，需要将hive的一个叫做hive-exec-1.2.2.jar包拷贝到sqoop的lib目录下cp /opt/bigdata/hive-1.2.2/lib/hive-exec-1.2.2.jar /opt/bigdata/sqoop-1.4.7.bin__hadoop-2.6.0/lib/(2) 准备hive数据库与表, 在hive中创建一个数据库和表create d.

2020-06-02 19:41:19 1055

原创 1.sqoop全量导入数据到hdfs

1.导出数据库表全量数据到HDFS 在MySQL数据库服务器中创建一个数据库userdb, 然后在创建一张表 emp，添加点测试数据到表中从MySQL数据库服务器中的userdb数据库下的emp表导入HDFS上 CREATE DATABASE /*!32312 IF NOT EXISTS*/`userdb` /*!40100 DEFAULT CHARACTER SET utf8 */;USE `userdb`;/*Table structure for table `emp`

2020-06-02 19:41:11 767 1

原创 sqoop理论和安装部署

1. Sqoop是什么 ? Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop工作原理 sqoop将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对in...

2020-06-02 19:40:53 160

原创 5.flume静态拦截器使用

static拦截器的功能就是往采集到的数据的header中插入自己定义的key-value对1、案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log, 现在需要把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为：/source/logs/access/20200101/**/source/logs/nginx/20200101/**/

2020-05-31 15:50:43 498

原创 4.flume负载均衡（loadbalance）

master：]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-client.properties_loadbalance --name a1 -Dflume.root.logger=INFO,consoleslave1：]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-server.properties --name a1 -Dflume.root.l

2020-05-31 15:39:18 231

原创 3.flume故障转移（failover）

1、故障转移（failover）：master：]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-client.properties --name agent1 -Dflume.root.logger=INFO,consoleslave1：]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-server.properties --name a1 .

2020-05-31 15:30:00 447

原创 2.sink输出HDFS

输出HDFS]# ./bin/flume-ng agent --conf conf --conf-file ./conf/3.flume.conf --name a1 -Dflume.root.logger=INFO,console发数据：]# echo '我爱你中国' >> 1.log # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1

2020-05-31 15:15:34 389

原创 1.netcat和exec source方式

1.使用官方的组件，搭配一个从 netcat source -> memory channel -> logger sink 的 demo启动agent：]# ./bin/flume-ng agent --conf conf --conf-file ./conf/1.flume_netcat.conf --name a1 -Dflume.root.logger=INFO,console发数据：]# telnet master 44444flume_netcat.conf文

2020-05-31 15:06:04 473

原创 flume架构理论

1. Flume是什么 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方，用于收集数据； Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 flume支持的多种接入资源数据类型有哪些；多种接出数据类型？？接入：console：终端、RPC网络、text文本、tail命令、syslog、exec输出：磁盘、hdfs、hbase、kafka、网络传输

2020-05-30 14:59:02 196 1

原创 yarn3种调度器

yarn调度器试想一下，你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些yarn的资源调度器。在Yarn框架中，调度器是一块很重要的内容。有了合适的调度规则，就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO，即按照用户提交任务的时间

2020-05-30 12:34:19 3159

原创 yarn的使用

如何使用yarn1 配置文件<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration&...

2020-05-30 12:27:00 272

原创 Yarn资源调度系统入门

1. yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目，为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式，不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架，不再强迫使用MapReduce框架。当企业的数据在HDFS中是可用的，有多种数据处理方式是非常重要的。有了Hadoop2.0和YARN,机构可以采用流处理、.

2020-05-30 12:23:30 264

原创 MapReduce相关问题

1.在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是？（）答案：AA.ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高B.使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象C.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成D.Job和JobControl类可以管理非..

2020-05-30 11:13:44 7140

原创 MapReduce-WordCount案例

有上一篇讲解了MapReduce运行原理后,相信大家能理解了,本篇以wordcount为案例了解下MapReduce编程的乐趣...1 MR参考代码1 .1Mapper代码package com.mr.cf.wordcount;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado

2020-05-30 11:08:18 181

原创搞定MapReduce编程模型

1. MapReduce编程模型 MapReduce是采用一种分而治之的思想设计出来的分布式计算框架一些复杂或计算量大的任务，单台服务器无法胜任时，可将此大任务切分成一个个小的任务，小任务分别在不同的服务器上并行的执行；最终再汇总每个小任务的结果 MapReduce由两个阶段组成：Map阶段（切分成一个个小的任务）、Reduce阶段（汇总小任务的结果）。 1.1 Map阶段 map()函数的输入是kv键值对，输出是一系列kv键值对，输出结果写入本地磁盘。

2020-05-30 10:50:42 222

原创 HDFS分布式文件存储系统

1. Hadoop是什么1.1 Hadoop架构Hadoop由三个模块组成：分布式文件存储HDFS、分布式计算MapReduce、资源调度引擎Yarn1.2 分布式是什么分布式：利用一批通过网络连接的、廉价普通的机器，完成单个机器无法完成的存储、计算任务1.3 HDFS是什么Hadoop分布式文件系统1.4 为什么使用HDFS高可用、容错、可扩展2.核心概念block2.1 数据块block2.1.1 HDFS block块HDFS3.x上的文件，是...

2020-05-24 14:11:38 428

原创 HDFS常用命令

hadoop fs类似于hdfs dfs1. 如何查看hdfs子命令的帮助信息，如rmdir子命令hdfs dfs -help rmdir2. 查看hdfs文件系统中已经存在的文件hdfs dfs -ls /hadoop fs -ls /3. 在hdfs文件系统中创建文件hdfs dfs -touchz /a.txt4. 从本地路径上传文件至HDFShdfs dfs -put /本地路径 /hdfs路径5. 在hdfs文件系统中下载文件hdfs dfs -get

2020-05-24 13:55:01 190

转载 SAP Hana sql语法

SAP Hana sql语法感觉博主热心作品，如有得罪，尽请告知！https://www.cnblogs.com/renzhituteng/p/11013957.html

2019-12-24 17:33:42 1459

原创 JAVA API获取HANA Schema信息和表主键列名和列类型信息

获取数据库信息获取数据库所有Schema获取所有表信息获取schema下所有的表获取表主键信息获取表中列值信息package com.XXXSchema;import java.sql.*;public class JDBCDemoHANA2 { private static final String DRIVER = "com.sap.db.jdbc....

2019-12-24 17:29:46 2346 3

原创 JDBC连接hana JAVA API

JDBC连接hana JAVA APIwork中需要将kafka topic中的数据sync到hana表中，事先做了一个了解hana语法和代码的demo，后续介绍kafka connector的使用和 hana语法的简单使用package com.xxx;import java.sql.*;public class JDBCDemoHANA { private sta...

2019-12-24 17:02:43 872

原创 treeMap的简单使用

treeMap的简单使用，后续介绍底层实现import java.util.HashMap;import java.util.Map;import java.util.SortedMap;import java.util.TreeMap;/** * * TreeMap 的 tailMap()、headMap()、firstKey() 方法使用 * */public cla...

2019-12-20 16:02:31 924

原创 typesafe.config读取配置信息

maven依赖： <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version> </dependency>测...

2019-12-20 15:35:59 1926

原创 idea创建普通maven+java工程

最近想把以前积累的零散java练习和学习的东西建一个项目整理出来上传到码云托管，免得电脑挂了啥也找不到配置是IDEA2018.3.4+java8+maven3.6.1，截图记录下步骤第一步：File--> New-->Project打开的界面如下：选择Maven，勾选Create from archetype，选择下面的quickstart，这是一个普通的java工程，...

2019-12-18 16:41:08 535

原创 idea用maven开发spark程序的pom.xml

我们用maven构建spark项目，需要使用maven来管理各个组件jar需要找依赖的话，地址：https://mvnrepository.com/<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...

2019-12-09 17:44:53 353

原创 hive关系操作符

关系操作符关系操作符——比较操作数并产生TRUE或者FALSE，需要注意的是Hive的相等比较为=，而不是= =。

2019-12-05 18:11:21 159

原创 Spark的Direct方式接收kafka消息实现WordCount

1.yarn集群开启2.启动zookeeper集群（kafka需要）3.启动kafka服务端、生产者和消费者端（生产者模拟往kafka灌入数据，消费者端打印数据）3.1启动kafka服务端3.2启动kafka生产者3.3启动kafka消费者4.spark官方Demo改吧改吧找到你的spark安装目录-->spark-2.0.2-bin-hadoop2....

2018-11-30 16:12:43 640

原创 mongodb集群搭建（测试环境）

搭建集群规划主机用途 10.xxx.xx.111 主节点（主） 10.xxx.xx.112 备节点+仲裁点（从+仲裁器）一，下载安装包1：首先官网下载的的Linux的安装包下载的社区版https://www.mongodb.com/download-cent...

2018-10-25 18:05:55 823

原创 mogodb简介

MongoDB的简介：mongodb的集群搭建方式主要有三种，主从（master slave）模式，副本集（分片）模式，三种模式各有优劣，适用于不同的场合，属副本集应用最为广泛，主从模式现在用的较少，sharding模式最为完备，但配置维护较为复杂。本文我们来看下Replica Set模式的搭建方法。Mongodb的副本集即副本集方式主要有两个目的，一个是数据冗余做故障恢复使用，当发生硬件...

2018-10-25 18:05:32 602

原创 vue+jfinal+nginx前后台完全分离集群部署

简单说：先分别将多个的Tomcat的启动在不同的端口（非80端口）下面，然后在nginx的的中配置上游指向这些的Tomcat中，最后通过位置+正则使nginx的的接管所有静态资源请求即可。小编在两台测试服务器上做此实验。192.168.50.111安装的Nginx的部署jfinal项目;分别开启8001,8002,8003三个的Tomcat的192.168.50.112安装的Nginx...

2018-10-24 12:52:58 3306 1

原创 redis-4.0.1集群搭建

第一步redis官网下载最新的安装包项目中要用到redis集群，我在测试环境上搭建了redis 的集群。我这里用的是redis-4.0.11.tar.gz 的下载地址： https://redis.io/download执行下面的命令下载即可$ wget http://download.redis.io/releases/redis-4.0.10.tar.gz安装前要准备好...

2018-09-29 11:35:06 1613

原创 rocketmq No route info of this topic错误(原因版本不一致)

坑啊网上找了半天，启动broker的时候设置autoCreateTopicEnable=true没有用调试，最后发现rocketmq的版本和rocketmq client的版本不一致导致。我的集群使用的rocketmq的版本是4.3.0，java client端jar包用的是4.2.0的版本所以导致这个报错问题rocketmq 的 4.3.0版本的自动创建（autoCreateTo...

2018-09-14 09:45:51 3335 1

原创 lock failed, MQ already started问题解决

lock failed, MQ already started出现如下问题是因为我们在集群中master和slave共用一个storePath造成的，这个时候我们要启动的每一个broker要指定不一样的storePath 路径就行，也就是在我们的配置文件中修改即可。。。。完美解决。。。。 ...

2018-09-06 21:45:07 12175 6

原创 RocketMQ4.3.0集群搭建和部署rocketMq监控平台

集群部署(采用2个master，2个slave异步复制的集群结构) RocketMQ具有以下特点：1）是一个队列模型的消息中间件，具有高性能、高可靠、高实时、分布式特点。2）Producer、Consumer、队列都可以分布式。3）Producer向一些队列轮流发送消息，队列集合称为Topic，Consumer如果做广播消费，则一个consumer实例消费这个Topic对应...

2018-09-06 21:40:14 14818 5

jfinal的demo

vue的demo的使用

空空如也