暗东方-CSDN博客

原创 canal集群搭建

准备canal-admin的限定依赖：1.MySQL，用于存储配置和节点等相关数据2.canal版本，要求>=1.1.4 (需要依赖canal-server提供面向admin的动态运维管理接口)部署1.下载 canal-admin,1.1.4 版本：1.1.4下载地址2.解压缩mkdir canal-admintar zxvf canal.admin-1.1.4.tar.gz -C canal-admin解压完成后，进入 /canal 目录，可以看到如下结构drwxr-xr-

2020-09-11 15:24:29 1025

原创 opentsdb使用

1.maven导入<dependency> <groupId>com.github.eulery</groupId> <artifactId>opentsdb-java-sdk</artifactId> <version>1.1.6</version></dependency>2.编写Op...

2020-01-17 17:10:06 596

原创 java使用Kerberos认证

import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import java.util.HashMap;import java.util.Map;import java.util.Properties;import javax.security.auth.Subject;impo...

2020-01-16 17:59:26 5082 1

原创 CDH6.2.1安装步骤

1.CM部署准备1.1 连接服务器1.2 修改hosts文件[root@hadoop001 ~]# vim /etc/hosts127.0.0.1 localhost localhost::1 localhost localhost.localdomain localhost6 localhost6.localdomain6172.17.138.24...

2020-01-05 16:57:49 3582 3

原创 DbSearcher解析ip地址

1.maven导入<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version></de...

2019-12-29 14:59:41 2418

原创 spark操作hive工具类

import org.apache.spark.sql.SparkSessionobject HiveUtil { /** * 调大最大分区个数 * * @param spark SparkSession * @return */ def setMaxpartitions(spark: SparkSession): ...

2019-12-29 14:46:48 228

原创 sqoop的安装和使用

1.导出脚本#!/bin/bash#cdhexport HADOOP_USER_NAME=hivedb_name=gmallexport_data() {/opt/module/sqoop/bin/sqoop export \--connect "jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&charact...

2019-12-29 14:37:20 108

原创 hive常用命令和压缩

1.创建数据库1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）hive (default)> create database db_hive;FAILED...

2019-12-29 14:16:55 277

原创 canal安装(HA)使用

1.canal 入门1.1 什么是 canal阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。Canal是用java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Cana...

2019-12-28 23:26:53 422

原创 scala安装使用

1.Scala环境搭建1）安装步骤（1）首先确保JDK1.8安装成功（2）下载对应的Scala安装文件scala-2.11.8.zip（3）解压scala-2.11.8.zip，我这里解压到E:\02_software（4）配置Scala的环境变量注意1：解压路径不能有任何中文路径，最好不要有空格。注意2：环境变量要大写SCALA_HOME2.Scala插件安装默认情况下IDE...

2019-12-28 22:13:39 186

原创 Flume框架

第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2 Flume基础架构Flume组成架构如图1-1所示：下面我们来详细介绍一下Flume架构中的组件：1.2.1 AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要...

2019-12-26 22:11:35 443

原创 sparkStreaming手动维护offset

1.导入maven<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version></dependency><dependency&...

2019-12-12 19:32:00 711

原创 spark提交脚本及优化

1.释放缓存与缓存方法DataFrame//默认使用MEMORY_AND_DISKdataFrame.cache()//释放缓存dataFrame.unpersist()RDD//默认使用MEMORY_ONLYRDD.cache()//自定义使用RDD.persist()//释放缓存RDD.unpersist()SqlsparkSession.catalog.cac...

2019-12-10 11:52:12 145

原创 Datax使用

下载地址下载地址：https://github.com/alibaba/DataX实际使用python datax.py --jvm="-Xms5G -Xmx5G" ../job/test.json -p "-Ddt=20190722 -Ddn=webA"hive到mysql的配置文件{ "job": { "setting": { "speed": { "chann...

2019-12-10 11:36:40 191

原创 Hive 函数详解

1.数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)返回DOUBLE型d的保留n位小数的DOUBLW型的近似值...

2019-12-10 11:19:44 205

原创 Spark Sql 函数详解

1.聚合函数approx_count_distinctcount_distinct近似值avg平均值collect_list聚合指定字段的值到listcollect_set聚合指定字段的值到setcorr计算两列的Pearson相关系数count计数countDistinct去重计数 SQL中用法select count(distinct class)...

2019-12-10 10:19:53 1856

原创 IDEA中log4j详解

### 配置根 ###log4j.rootLogger = debug,console ,fileAppender,dailyRollingFile,ROLLING_FILE,MAIL,DATABASE### 设置输出sql的级别，其中logger后面的内容全部为jar包中所包含的包名 ###log4j.logger.org.apache=dubuglog4j.logger.java.s...

2019-12-06 18:15:32 664

原创 spark读取hive和写入hive

1.导入maven<properties> <spark.version>2.1.1</spark.version> <scala.version>2.11.8</scala.version></properties><dependencies> <dep...

2019-12-06 18:09:15 1892

原创 jdk1.8安装

1.在/opt目录下创建module和software文件夹[root@hadoop100 opt]# mkdir module[root@hadoop100 opt]# mkdir software2.将jdk-8u144-linux-x64.tar.gz导入到/opt/software目录3.解压JDK到/opt/module目录下，并修改文件的所有者和所有者组为root[root...

2019-12-06 11:32:16 176

原创 linux集群整体操作脚本

1.在/root/bin目录下创建脚本xcall.sh[root@hadoop100 bin]$ vim xcall.sh2.在脚本中编写如下内容#! /bin/bashfor i in hadoop100 hadoop101 hadoop102do echo --------- $i ---------- ssh $i "$*"done3.修改...

2019-12-06 10:37:06 522 1

原创 linux集群同步脚本

1.在/root目录下创建bin目录，并在bin目录下创建文件xsync[root@hadoop100 ~]$ mkdir bin[root@hadoop100 ~]$ cd bin/[root@hadoop100 bin]$ vim xsync2.在该文件中编写如下代码#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==...

2019-12-06 10:19:48 521

原创 flink面试相关手册

概述2019 年是大数据实时计算领域最不平凡的一年，2019 年 1 月阿里巴巴 Blink （内部的 Flink 分支版本）开源，大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。时至今日，Flink 已经发展到 1.9 版本，在大数据开发领域，面试中对于 Flink 的考察已经是大数据开发求职者...

2019-12-05 10:17:56 377

原创使用java获取前一天的日期

编写代码public class MyDateutil { public static String getYesterdayString(String date) { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd"); try { //将日期转换为Date对象 ...

2019-12-03 18:34:25 2149

原创 scala读写文本文件

1.scala读文本文件val bufferedSource = Source.fromFile("example.txt")for (line <- bufferedSource.getLines) { println(line.toUpperCase)}bufferedSource.close2.scala写文本文件// PrintWriterimport jav...

2019-12-02 18:41:01 770

原创 java代码获取Redis客户端

1.导入maven<dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version></dependency>2.编写代码import redis.cl...

2019-12-01 13:13:17 333

原创 kafka生产数据

1.导入maven<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</version></dependency>2.创建kafk...

2019-11-26 19:36:09 379

原创消费kafka数据

1.导入maven<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version></dependency>...

2019-11-26 19:22:51 272

原创加载ProPerties配置文件工具类

public class ProPertiesUtil { /** * @param fileName 文件名称 */ public static Properties getProperties(String fileName) { Properties properties = new Properties(); // 使用...

2019-11-26 19:05:06 133

原创使用Druid连接mysql数据

1.先导入maven<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version></dependency><dependency...

2019-11-26 19:00:25 2915

原创 scala对象转json字符串

1.样例类转换成为JSON字符串pom.xml文件<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3.5.4</version></de...

2019-11-19 14:04:58 1379

weixin_43956381的博客