自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (3)
  • 收藏
  • 关注

转载 Maxwell读取MySQL binlog日志到Kafka

启动MySQL 创建Maxwell的数据库和用户 在MySQL中创建一个测试数据库和表前3步详细步骤见实时数仓之Maxwell读取MySQL binlog日志启动Zookeeper 12 [hadoop@hadoop001 ~]$ cd $ZK_HOME/bin[hadoop@hadoop001 bin]$ ./zkServer.sh start...

2020-03-30 20:36:08 615 1

转载 Maxwell读取MySQL binlog日志

下载maxwell解压maxwell修改MySQL的配置文件my.cnf 123456 [root@hadoop000 ~]# cd /etc[root@hadoop000 etc]# vi my.cnf[mysqld]server-id = 1binlog_format = ROW PS:binlog_for...

2020-03-30 20:35:02 1264

原创 collect、explode、concat、lateral view

一、collect_set 和 collect_list 函数collect_set(col) 、 collect_list(col)函数只接受基本数据类型,它的主要作用是将某字段的值汇总,产生Array类型字段,注意该函数只能接受一列参数!我们一般都会配合group by 函数,直接汇总分组数据!collect函数也可以实现一个功能:获取group by后面没有的字段!c...

2020-03-30 19:41:17 474

原创 with as 使用

背景当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级、多个地方存在重复使用的情况,这个时候我们可以使用 with xxx as 语句 ,将其独立出来,极大提高SQL可读性,简化SQL。注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Commo...

2020-03-30 19:38:44 1113

原创 oracle sqoop hdfs 示例

sqoop export \--connect jdbc:oracle:thin:@121.36.164.xxx:1521:HELOWIN \--username test1 \--password test1 \--fields-terminated-by '\t' \--table TEST1.STUDENT \--export-dir /user/hive/warehouse/o...

2020-03-17 09:27:46 100

原创 flink 窗口

window一般真实的流都是无界的,怎么处理无界的数据?可以把无限的数据流进行切分,得到有限的数据集进行处理 --也就是得到有界流窗口就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶中进行分析窗口类型时间窗口(time window)滚动时间窗口(Tumbling Window)将数据依据固定的窗口长度对数据进行切分时间对齐,窗口长度固定,没有重叠,每条数据...

2020-01-14 23:41:16 298

原创 hive DDL

库createCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];create database if not exis...

2020-01-11 15:42:53 316

原创 hive个人使用 持续更新

1、连续n天例如连续12登陆,先日期进行从小到大进行排序,再rank ,然后日期减去rank的序号,有多少个相同的连续值就是连续多少天2、数据只有本月和本月数添加第三列是之前12个月的数总和(sum(ct2.CREATE_PROJECT_CURRENT_MONTH_CNT) over(ORDER BY ct2.CURRENT_MONTH_ID ASC ROWS BETWEEN 12 pr...

2020-01-11 15:21:22 325

原创 flink 并行度 任务链 task分配

Flink 中每一个 TaskManager 都是一个JVM进程,它可能会在独立的线程上执行一个或多个 subtask为了控制一个 TaskManager 能接收多少个 task, TaskManager 通过 task slot 来进行控制(一个 TaskManager 至少有一个 slot)slot 主要隔离内存,cpu 是slot之间共享的。也就是说4核的机器 ,内存足够,可以把s...

2020-01-11 14:29:37 4244

原创 flink 1.9.1 mac 单机使用

1、Standalone部署flink 安装包解压后放在自定义的位置,看个人习惯选择配置环境变量https://flink.apache.org/downloads.html#apache-flink-191这里使用的是没有hadoop 支持的版本,standalone模式无需hadoop支持修改配置文件vim flink-1.9.1/conf/flink-conf.yaml...

2020-01-10 22:00:46 411

原创 flink assign watermark源码分析

水印生成的周期默认的生成周期是200毫秒,我们可以在环境中修改这个时间val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) // T...

2020-01-09 21:33:41 334

原创 datax mysql

说明datax 是通过plugins来操作的我们需要mysqlreader hdfswriter 这两个插件准备下载datax3tar -zxvf datax.tar.gz -C /opt/module/vim /etc/profileappend export DATAX_HOME=/opt/module/dataxexport PATH=$PATH:$DATAX_HOM...

2020-01-01 13:43:15 1097

转载 redis 面试

厚颜无耻的转载别人的 嘻嘻嘻https://blog.csdn.net/qq_35190492/article/details/102841400

2019-12-31 19:09:09 83

转载 datax介绍 基于datax官网

一、Datax概览离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Features将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论...

2019-12-31 16:59:04 11803

转载 sqoop 4种密码使用模式

背景sqoop是一个用来将Hadoop和关系型数据库(RDBMS)中的数据进行相互转移的工具。在使用sqoop时,我们需要提供数据库的访问密码。目前sqoop共支持4种输入密码的方式:明文模式交互模式文件模式别名模式笔者使用的是CDH6.2.1里的sqoop。在待会的演示中,我们将以mysql作为我们的关系型数据库。明文模式明文模式是最为简单的方式。我们可以在执行sqoop命令...

2019-12-31 16:52:14 1085 1

原创 docker 安装mysql 开启binlog 每天备份数据

1、安装dockerwget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y docker-ce-19.03.4给docker 配置`usermod -G docker root`systemctl ena...

2019-12-26 10:39:54 512 1

原创 Sqoop --split by 支持的类型及现象

varchar现象1、抽取失败2、-m 指定多个任务,会无法切分任务,抽过来的数据行数有可能发生偏差当你的抽取任务指定的split key 为varchar 时最好指定任务个数为1int现象当int的范围特别小的时候,最后一个mapper会有一定倾斜split key 支持的好的数据类型BigDecimal,Boolean,Date,Float,IntegerBigDecim...

2019-12-23 11:05:58 1294

转载 hive修改 application name中文乱码解决

初衷基于spark引擎的hive,在hive客户端中提交查询sql后,在yarn管理界面,或者8088界面,看到的作业名称都是"hive on spark",如下图所示,如果有多个脚本同时在运行时,就不好分辨。修改方式mapreduce 引擎yarn1set mapred.job.name=xxx;yarn2set mapreduce.job.name=xxx;spark 引...

2019-12-18 15:51:50 1203

转载 hive 指定yarn queue

Hive提供三种可以改变环境变量的方法,分别是:(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)命令行参数;(3)在已经进入cli时进行参数声明。下面分别来介绍这几种设定。上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。方法一在Hive中,所有的默认配置都在${HIVE_HOME}/conf/h...

2019-12-18 15:15:55 5575

原创 cdh hive mysql 元数据常用介绍

table versionselect * from version;+--------+----------------+----------------------------+| VER_ID | SCHEMA_VERSION | VERSION_COMMENT |+--------+----------------+---------------------...

2019-12-18 09:16:54 717

转载 tushare环境准备

安装python3.7.4windowshttps://blog.csdn.net/weixin_40844416/article/details/80889165配置sublime相同https://www.cnblogs.com/keithtt/p/6919417.htmlmachttps://www.cnblogs.com/keithtt/p/6919417.htmlpip3...

2019-12-13 17:01:34 163

原创 sublime插件

主题ayu高亮sublimehighlightpythonsublimeREPLsqlsqltoolssqlbeautifulshellshellcommandshell execsftp汉化chineselocalizations转换编码converttoutf8文件夹open finderopen folder...

2019-12-12 16:56:05 198

原创 windows 安装mysql5.7

1、下载Mysqlhttps://dev.mysql.com/downloads/mysql/2、配置Mysql下载后解压进自定义目录正常情况下是没有my.ini这个文件的,我们创建一个就行,添加如下内容防止中文乱码开启binlog row模式[mysqld]basedir =D:\devlopment\mysql-5.7.28-winx64datadir =D:\devl...

2019-12-11 23:51:43 85

原创 canal 使用

使用场景场景1: 更新缓存场景2:抓取业务数据表的新增和变化数据,用于制作拉链表场景3:抓取业务数据表的新增和变化数据,用于实时统计工作原理把自己伪装成slave 假装从master 复制数据复制过程分为三步1、master 主库 DDL DML 除了查询语句写进二进制文件(binary log)中。2、slave 从库向master 发送dump协议,将master 的 bi...

2019-12-03 22:42:16 337

原创 sqoop export 分隔符问题

sqoop 导出如果分隔符指定的不对会导致hive 进sqoop 数据不能正确的分隔,会造成导出任务失败。Hive应用:选取分隔符在使用hive的时候,分隔符是必不可少的,当学习的时候使用的都是常规分隔符,比如:逗号“,”、竖线“|”等,这些键盘上都可以直接输入的字符,但是这些字符只要是键盘上的,在针对复杂的业务逻辑的时候,都会失效。比如你有一个备注字段,这个字段允许用户输...

2019-12-03 12:03:18 1609

原创 mac 安装mysql 并开启bin-log

下载官网安装包mysql 5.7.28https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.28-macos10.14-x86_64.dmg下载好后一路按照提示安装 默认就行安装好后会弹出密码,把密码记录下来,后面登陆会用到设置环境变量cd ~vim ./.bash_profileexport PATH=$PATH:/usr...

2019-11-15 18:05:51 408

原创 mac 彻底删除mysql

1.打开终端窗口2.使用mysqldump备份你的数据库将文本文件!3.停止数据库服务器4.依次执行以下命令,遇到要输密码的输入密码即可sudo rm /usr/local/mysqlsudo rm -rf /usr/local/mysql*sudo rm -rf /Library/StartupItems/MySQLCOMsudo rm -rf /Library/Preferenc...

2019-11-15 17:44:23 208

转载 物理机安装centos7

https://blog.csdn.net/qq_28189423/article/details/82216620#commentBox

2019-11-15 17:39:46 277

原创 hive 存储元数据信息支持中文

hive 存储元数据信息支持中文在mysql中hive元数据库中执行ALTER TABLE `COLUMNS_V2` CHANGE `COMMENT` `COMMENT` VARCHAR(256) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL;ALTER TABLE `COLUMNS_V2` CHANGE `COLUMN_NAME` ...

2019-11-15 16:32:44 522

原创 sqoop 连接超时

连接超时有两种情况1、任务直接报连接超时关系型数据库的白名单中没有添加nodemanager的节点2、任务执行一段时间后报连接超时关系型数据库的白名单中只添加nodemanager的部分节点看yarn 日志 总日志和单任务的日志会发现,添加白名单的节点上的任务都成功了,没有添加的失败了。...

2019-10-29 17:15:57 1825

原创 sqoop 导出时数据一致性问题

sqoop 底层运行的其实是map 任务,默认4个map如果4个map中有两个map失败了,但是另外两个是成功的。这个时候导入进mysql中的数据是不正确的,重新再导一次全部任务都成功,这两次的数据会不一致。为了保证导出的时候数据是一致的sqoop有两个参数配合使用sqoop 导出时并不会自动创建表需要自己手动创建,如果使用这两个参数的话还有创建一个结构一样的 表名_temp的mysql表...

2019-10-28 22:06:21 3339

原创 sqoop mysql sql server hive 空值转换

0、说明 hive中的空值默认存储为\N ,mysql和sql server 中的空值存储为null。 在sqoop导入导出的过程中需要解决空值转换的问题import使用参数 把mysql 和sql server中的null 转换为 \N–input-null-string ‘\N’–input-null-non-string ‘\N’export使用参数 把hive中的\N转...

2019-10-28 21:57:42 433

原创 hbase 2.1.0 编译phoenix5.0.0

0、环境cdh6.2.1hadoop3.0.0hbase2.1.0maven 3.6.0git2.11.01、编译源码# clone源码git clone https://github.com/apache/phoenix.git# 进入源码根目录cd phoenix/# 查看tag ,或者查看分支 git branch -agit tag# 选择一个版本,进入其分支,或...

2019-10-28 21:48:46 1500 1

原创 docker简单使用

1、安装dockeryum install docker2、启动docker并设置开机自启service docker startchkconfig docker on或者systemctl start docker.servicesystemctl enable docker.service3、docker使用中国加速器vi /etc/docker/dae...

2019-10-24 09:17:20 100

原创 linux 根据进程查端口号

2019-10-23 23:30:00 97

原创 云主机绑定云磁盘后挂载 阿里云华为云通用

阿里云https://help.aliyun.com/document_detail/25426.html?spm=a2c4g.11186623.2.18.2386577b01X9NN#concept-jl1-qzd-wdb华为云https://support.huaweicloud.com/qs-evs/evs_01_0033.html

2019-10-23 11:44:43 182

原创 spark 累加器的使用

累加器的创建累加器的抽象类类是AccumulatorV2 继承这个类,需要两个范型 in、out 。重写里面的抽象方法。iszero、reset、copy、merge、add、value源码中已经实现好的累加器LongAccumulator in 、out 类型全为long 除了重写了抽象方法之外还添加了其他的几个额外的方便的方法DoubleAccumulator i...

2019-10-23 11:42:43 357

原创 spark streaming 消费kafka两种方式的对比

1、读取数据的并发度Receiver的方式:采用的是单核的模式,即使你设置了多个线程数,你的上下文环境中设置的并行度很大,也不会产生影响,还是1。只有通过配置多个receiver才会并行的读取kafka中的数据Direct的方式:读取数据的并行度和topic的分区数相同,而且生成的DStream的并行度也和topic的分区数相同,一一对应。2、生成的DSream的并行度Receiv...

2019-10-23 11:42:26 521

原创 hive 存储格式的生产应用

相同数据,分别以TextFile、SequenceFile、RcFile、ORC存储的比较。原始大小: 19M1. TextFile(默认) 文件大小为18.1M2. SequenceFile 1 2 3 4 5 6 7 8 9 10 11 12 cr...

2019-10-22 21:35:26 103

原创 hive中转义字符的使用

Hadoop和Hive都是用UTF-8编码的,所以, 所有中文必须是UTF-8编码, 才能正常使用备注:中文数据load到表里面, 如果字符集不同,很有可能全是乱码需要做转码的, 但是hive本身没有函数来做这个一、转义字符的特殊情况:自身的转义,比如java有时候需要两个转义字符"\\",或者四个转义字符“\\\\”。1)java的俩种情况:a.正则表达式匹配和string的...

2019-10-22 21:30:56 13906

idea 学习maven 全套资料 pdf

idea maven 教程 ,供初学者使用,这是本人用的上传上来的。

2019-04-08

maven 仓库

maven 仓库 包含基本的jar包资源,供初学者使用,这是本人用的上传上来的。

2019-04-08

基于51单片机的时钟

基于51单片机的时钟,适用于新手

2017-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除