storm_fury-CSDN博客

原创 Python读取mdb文件数据

【代码】Python读取mdb文件数据。

2023-05-17 14:08:59 1198

原创 Spark3通过Upsert方式写入MySQL

【代码】Spark3通过Upsert方式写入MySQL。

2023-03-21 16:19:40 495

原创 Redis使用pipline批量删除key

Redis使用pipline批量删除key

2022-08-09 19:43:19 779

在Java中，可以将一个类定义在另一个类或者一个方法里面，这样的类称为内部类。广泛意义上的内部类一般来说包括这四种：成员内部类、静态内部类、局部内部类和匿名内部类。成员内部类内部类作为外部类的一个成员变量，访问权限可以是任意的权限。成员内部类中不允许定义静态的成员(静态方法、静态属性)，实例化对象时需要借助外部类的对象完成。字节码文件名格式: 外部类$内部类.classpublic class OuterClass { public String name; // 定义成

2020-08-05 09:23:54 256

原创 Linux 环境下安装部署 Weblogic

环境准备配置 java 环境变量export JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar:$CLASSPATH创建 weblogic 用户及用户组[root@node00 ~]# mkdir -p /u01/weblogic[root@node00 ~]# ll[root@node00 ~]#..

2020-07-30 14:45:28 449

原创使用 Spark 跨集群同步HDFS数据

import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject TestFileCopy { def main(args: Array[String]): Unit = { Logger.getLogger("org.a

2020-07-22 13:32:35 1762

原创 Scala中反射的使用

参考: http://software.clapper.org/classutil/测试类:import com.project.dmp.utils.ClassUtilsimport org.clapper.classutil.ClassInfoimport org.clapper.classutil.ScalaCompat.LazyListimport org.junit.Testimport spire.std.mapclass ClassUtilTest { /** * 获

2020-07-17 16:49:23 476

原创 Scala 中如何使用 continue 和 break 跳出循环

示例代码:object Test { def main(args: Array[String]): Unit = { import scala.util.control.Breaks._ println("=============== Continue ===================") for (i <- 1 to 10) { breakable { if (i % 2 == 0) { break

2020-07-13 11:19:37 1072

原创构建并生成日期维度数据表

基于 MySQL 生成日期维度数据创建日期维度数据表DROP TABLE IF EXISTS `date_dim`;CREATE TABLE IF NOT EXISTS `date_dim` ( `date_sk` BIGINT ( 20 ) NOT NULL AUTO_INCREMENT, `date` VARCHAR ( 255 ) DEFAULT NULL, `month` VARCHAR ( 255 ) DEFAULT NULL, `month_name` ..

2020-07-03 15:45:22 907

原创 Flink 在 idea上提交任务到远程服务器

Flink自身提供了远程提交任务的环境,源码如下:请查看StreamExecutionEnvironment 类中 createRemoteEnvironment 方法def createRemoteEnvironment( host: String, port: Int, parallelism: Int, jarFiles: String*): StreamExecutionEnvironment = { val javaEnv = JavaEnv.create

2020-07-03 13:37:28 2316 2

原创 Kudu 表数据迁移

使用 Kudu Command Line Tools 将表数据复制到另一个表这两个表可在同一个集群中，也可在不同集群。但是这两个表必须具有相同的表模式，可以具有不同的分区模式。该工具可以使用与源表相同的表和分区模式创建新表。用法:kudu table copy <master_addresses> <table_name> <dest_master_addresses> [-nocreate_table] [-dst_table=<table>] [-n

2020-07-01 16:21:03 3445 1

原创在 Kudu 中集成 Hive Metastore

在启用 Kudu-HMS 集成之前，要确保 Kudu 和 HMS 现有表的视图一致。这可能需要重命名Kudu表以符合Hive命名约束。在启用与 Hive Metastore 集成之前应升级现有 Kudu 表。准备升级在升级过程中，Kudu群集仍然可用。Kudu 和 Hive Metastore 中的表可能会更改或重命名。可以使用以下命令记录所有外部表并将其删除。这减少了与 Kudu 表发生命名冲突，导致升级过程中出现错误。升级完成后，重新创建外部表。[root@node01 ~]# sudo -

2020-07-01 16:19:32 2580 3

原创 Flink 本地运行日志配置

方法一: 使用 log4j.properties在 src/main/resources 中添加 log4j.properties 文件################################################################################# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements..

2020-06-29 09:16:24 5156

原创使用 Imply 安装部署 Druid 集群并测试

下载 imply 安装包[root@node01 opt]# wget https://static.imply.io/release/imply-3.3.3.tar.gz解压安装包并修改配置文件[root@node01 opt]# tar -xzf imply-3.3.3.tar.gz[root@node01 ~]# cd imply-3.3.3[root@node01 imply-3.3.3]# cd conf/druid/_common/[root@node01 imply-3...

2020-06-02 13:20:25 904

原创 Flink 实时将数据写到 Redis

RedisSinkDemo 代码import java.net.InetSocketAddressimport java.utilimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.redis.RedisSinkimport org.apache.flink.streaming.connectors.redis.common.config.FlinkJedisClu..

2020-05-20 13:19:02 2098

原创 Flume 采集 kafka 数据实时写入 Kudu

####### 创建 JsonKuduOperationsProducer.java 用于处理 Json 字符串写入Kuduimport com.alibaba.fastjson.JSON;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.FlumeException;import org.apache.flume.annotations.InterfaceAudience..

2020-05-18 19:10:55 1386

原创关于 Impala 时区问题及解决办法

查询使用 from_unixtime 时，遇到如图所示情况:解决办法:默认 impala 配置不是中国的时区登录CM，进入Impala服务，进入配置项Cloudera Manager -> Impala -> 配置-> Impala Daemon -> 高级增加如下参数:-use_local_tz_for_unix_timestamp_conversions-convert_legacy_hive_parquet_utc_timestamps保存..

2020-05-16 19:50:02 1783 1

原创 Cloudera Manager中安装部署Flink服务

制作Flink的Parcel包和csd文件将Parcel包和manifest.json文件部署到httpd服务中[root@node01 ~]# mkdir -p /var/www/html/cloudera-repos/flink-parcel/[root@node01 ~]# cd /var/www/html/cloudera-repos/flink-parcel/[root@...

2020-05-07 20:09:41 2244 3

原创利用 StreamSets 实现将 SQL Server 中数据实时同步写入 Kudu

环境准备SQL Server 中创建测试库表CREATE DATABASE test;CREATE TABLE [dbo].[cdc_test] ( [id] int IDENTITY(1,1) NOT NULL, [name] varchar(60) COLLATE Chinese_PRC_CI_AS NOT NULL, CONSTRAINT [PK_cdc_tes...

2020-04-29 10:03:04 1388

原创 SQL Server 启用或禁用 CDC 功能

title: SQL Server 启用或禁用 CDC 功能comments: truetags:大数据SQL Servercategories:SQL Serverabbrlink:date: 2020-04-28 14:49:49查看库表是否启动 CDC-- 查看数据库是否启用cdcSELECT name,is_cdc_enabled FROM sys.dat...

2020-04-28 14:38:02 5054 1

原创利用 StreamSets 实现将 MySQL 中数据实时同步写入 Kudu

使用StreamSets实现MySQL中变化数据实时写入Kudu环境准备开启MariaDB的Binlog日志修改/etc/my.conf文件，在配置文件[mysqld]下增加如下配置server-id=999log-bin=mysql-binbinlog_format=ROW注意：MySQL Binlog支持多种数据更新格式包括Row、Statement和mix（Row和...

2020-04-28 13:50:21 2815 3

原创 Apache Flink 基于 CDH-6.3.2 源码编译

修改 maven 的仓库地址[root@node01 cloudera]# cat /usr/share/maven/conf/settings.xml... </mirrors> <mirror> <id>alimaven</id> <name>...

2020-04-24 08:48:01 1407 1

原创制作Flink的Parcel包和csd文件

配置java，maven等环境变量java:export JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar:$CLASSPATHmaven:export MVN_HOME=/usr/local...

2020-04-17 13:07:58 2738 3

原创解决 NiFi 节点本地流与集群流不一致导致无法加入集群

异常信息org.apache.nifi.controller.UninheritableFlowException: Failed to connect node to cluster because local flow is different than cluster flow. at org.apache.nifi.controller.StandardFlowService.lo...

2020-01-14 16:51:21 1162

原创解决 Elasticsearch 分页查询记录超过10000时异常

问题一: 查询结果中 hits.total.value 值最大为10000的限制解决方法:请求时设置 "track_total_hits": trueRest 请求设置方法:curl -X POST "http://192.168.1.101:9200/my_index/_search?pretty" -H 'Content-Type: application/json' -d'...

2020-01-08 10:45:59 3428

原创 Linux 下安装 Oracle 客户端

使用 ZIP文件离线安装 Oracle 客户端下载所需的 Instant Client ZIP文件。[root@cdh01 ~]# mkdir /opt/oracle[root@cdh01 ~]# cd /opt/oracle[root@cdh01 oracle]# ll /opt/oracletotal 82032-rw-r--r-- 1 root root 60704657...

2019-12-30 18:47:48 676 1

原创 NiFi 示例将 MySQL 中数据导出并转换为 JSON 发送到 Kafka

添加 ExecuteSQL 处理器添加 ExecuteSQL 到面板配置 ExecuteSQL配置 DBCPConnectionPool更改 DBCPConnectionPool 配置，直到将 state 从 Invalid 变为 Disable数据库连接池配置信息启用 DBCPConnectionPool任务成功或失败时的处理方式....

2019-12-24 19:18:57 1166

原创 Linux 下离线安装 MariaDB

下载 MariaDB 安装包下载地址: https://downloads.mariadb.org/卸载系统自带的mysql#检查mariadb是否存在[root@cdh01 local]# rpm -qa | grep mariadbmariadb-libs-5.5.60-1.el7_5.x86_64#卸载[root@cdh01 local]# rpm -e --nodep...

2019-12-19 15:02:38 5135 2

原创 NiFi 集群安装部署及使用

NiFi 架构下载 NiFi 安装包并解压下载地址: http://nifi.apache.org/download.html单机部署修改 con/nifi.properties 配置文件(可不修改)# HTTP 主机地址。默认为空。nifi.web.http.host=DSJ-TVM001# HTTP 端口。默认为8080nifi.web.http.port=...

2019-12-13 19:07:48 1600

原创 Structured Streaming 简介

示例代码import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 监听网络端口发...

2019-12-06 10:53:07 484

原创 Elasticsearch 更新字段映射 mapping

Elasticsearch 不支持现有字段映射更新。可以通过正确创建映射一个新的索引，然后将原索引上的数据复制到新的索引上，再将 alias 指向新 indices。然后再删除原索引。将原索引 test 添加 aliascurl -X POST "http://192.168.1.101:9200/_aliases?pretty" -H 'Content-Type: application...

2019-11-26 19:47:44 835

原创 Elasticsearch 安装部署 IK 分词器

下载 elasticsearch-analysis-ik 安装包下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases安装 IK 分词器自动安装cd /opt/cloudera/parcels/ELASTICSEARCH/bin./elasticsearch-plugin install -y htt...

2019-11-26 13:45:40 297

原创 Spring Boot 整合 Kafka 并使用 @KafkaListener 并发批量接收消息

注册 KafkaListenerContainerFactoryimport org.apache.kafka.clients.CommonClientConfigs;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.config.SaslConfigs;impo...

2019-11-25 17:06:49 3140 1

原创 ElasticSearch 在排序操作时报错: Fielddata is disabled on text fields by default...

异常信息:Fielddata is disabled on text fields by default. Set fielddata=true on [my_field] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use signi...

2019-11-25 09:26:41 721

原创 Hive 在 Join 查询时报错: Bad status for request TFetchResultsReq ...

异常信息:Bad status for request TFetchResultsReq(fetchType=1, operationHandle=TOperationHandle(hasResultSet=True, modifiedRowCount=None, operationType=0, operationId=THandleIdentifier(secret='\xff\xe1\...

2019-11-22 14:24:43 6344 1

原创 Flume 消费或生产消息到 Kafka 遇到的相关问题及解决

背景:在使用的 Flume 消费或生产添加了SASL_SSL认证的 Kafka 时，遇到以下问题。其中 Flume 本身自带 Kafka 依赖是0.9.0版本, Kafka 集群是0.10.0版本。遇到的相关问题问题一:由于 Flume 本身自带 Kafka 依赖是0.9.0版本, Kafka 集群是0.10.0版本，版本的不一致。...19/10/18 13:05:18 ...

2019-10-18 15:19:11 2648

原创 Hive 中自定义函数实现墨卡托和经纬度相互转换

package com.cloudera.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;import java.text.DecimalFormat;/** * 经纬度...

2019-10-16 14:34:43 442

原创 Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法

遇到的相关问题问题一:由于Spark2 环境使用的 netty-all-4.0.43.Final.jar 与 redisson 中的 netty-all-4.1.41.Final.jar 冲突，直接将 redisson 的 jar 包打包进项目中运行会报以下异常。Exception in thread "streaming-job-executor-0" java.lang.NoSu...

2019-10-14 14:40:57 3013

原创 SparkStreaming 消费 Kafka 数据保存 Offset 到 Redis

Sparkstreaming程序:package com.cloudera.savekafkaoffsetimport com.cloudera.utils.{JedisPoolUtils, KafkaRedisUtils, RedisConfig}import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apac...

2019-09-30 14:58:59 684 1

原创 Spark 读取 Hive 数据及相关问题解决

D:\development\java\jdk1.8.0_111\bin\java.exe -agentlib:jdwp=transport=dt_socket,address=127.0.0.1:59779,suspend=y,server=n -javaagent:D:\development\ideaIU-2018.3.5.win\lib\rt\debugger-agent.jar -Dfi...

2019-09-29 10:54:30 2114

空空如也

空空如也