自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (7)
  • 收藏
  • 关注

原创 MySQL-CDC 新增同步表确无法捕获增量问题处理

Flink-CDC MySQL新增同步表确无法捕获增量问题处理

2024-03-01 14:39:57 1051

原创 PostgresSQL数据库通过PL/Python3自定义函数

postgres 数据库自定义函数

2024-02-22 18:01:53 272

原创 ModuleNotFoundError No module named ‘bs4‘ 问题处理

centos7 离线安装beautifulsoup4

2024-01-25 15:32:48 386

原创 国产麒麟系统部署Ambari + HDP

国产融创 hadoop

2023-07-25 17:08:13 1560

原创 Flink On k8s

flink-1.15.1 on k8s

2023-03-06 17:47:25 1500 2

原创 Hadoop、Hive On k8s

HDFS、Hive整合后,on k8s 运行

2023-03-06 17:33:54 1142 2

原创 json字符串作为java程序启动参数遇到的问题

java main json

2022-08-18 15:52:45 728

原创 Flink WordCount 运行流程

提交流程

2022-06-16 10:07:39 239

原创 记录flink线上unable to create new native thread

mat

2022-06-13 16:54:11 528

原创 Flink Kerberos Login

我们在使用Flink时,如果遇到了Hadoop环境有Kerberos认证,可以直接在flink-conf.yaml文件中添加配置security.kerberos.login.contexts: Client,KafkaClientsecurity.kerberos.login.use-ticket-cache: truesecurity.kerberos.login.keytab: /etc/security/keytab/hdfs.keytabsecurity.kerberos.login.pr

2022-05-24 09:57:19 696

原创 Hbase-Phoneix Implementing class

在使用 hbase + phoneix 抽取索引数据时,执行命令:hbase org.apache.phoenix.mapreduce.index.IndexTool --data-table HBASE_PHONEIX_TEST --index-table HBASE_PHONEIX_TEST_INDEX --output-path ASYNC_IDX_HFILES出现如下报错:org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl

2021-07-29 10:25:32 181

原创 Maven如何排除引入依赖中的某个类

传送门

2021-06-18 18:02:07 5538

原创 Redis 集群安装搭建

https://www.yuque.com/docs/share/40441c55-3433-4560-996d-7519eebe35a3?# 《00-Redis集群搭建》

2021-04-27 16:29:17 62

原创 Flink HBaseLookupFunction

Flink HBaseLookupFunctionFlink版本:1.12.2Flink源码内有HbaseLookupFuncation类,最近想试试kafka 流数据实时关联hbase维表数据,看看使用HbaseLookupFuncation能否成功使用,于是稍微研究:1. Flink源码:HBaseLookupFunctionpackage org.apache.flink.connector.hbase.source;import org.apache.flink.annotation

2021-04-09 14:51:31 698

原创 Flink是如何实现Exactly Once

Flink是如何实现Exactly Once ?在了解Exactly Once 之前,首先得先知道Flink内部的Checkpoint 是干啥的?1. CheckPoint 简介Flink Checkpoint机制的存在,是为了解决Flink任务在运行的过程中,由于各种问题导致任务异常中断后,能正常恢复。我们看看在Checkpoint 的过程中,到底做了哪些事?Checkpoint 是通过快照的方式,将程序在某个时刻的状态,通过快照保存下来,当程序发送错误时,默认去最近一次保存的快照中恢复。(快照暂

2021-03-30 16:18:38 2289 1

原创 SQLServer Bulk insert 操作

SQLServer Bulk insert 操作之前一直使用的方式为:jdbc batch insert,多条数据做一次提交,由于此方法太慢了,发现sqlserver 有bulk insert 这种提交方式,具体操作如下:1. 创建sqlserver 表CREATE TABLE [dbo].[bulk_test] ( id varchar(200), name nvarchar(200), age varchar(200), sex varchar(200),)2. 生成待导入文

2021-03-18 15:02:18 2624

原创 Kafka Shell Lag

Kafka Shell Lagkafka 版本:2.1.0前言在生产环境中,比如你正在使用group kafka-lag消费某topic内的数据。目前你没有搭建对应的监控系统,你如何去查看对应partition 的堆积信息呢?很多人都会去使用这个命令:# 正常使用kafka-consumer-groups --bootstrap-server master:9092 --describe --group default# 系统存在kerberos认证使用kafka-consumer-grou

2021-01-13 11:02:35 501 1

原创 Prometheus + InfluxDB +Grafana 监控安装部署

Prometheus + Influx +Grafana 监控安装部署下载监控所需安装包:下载地址一. Prometheus安装# 从下载的安装文件夹内找到安装包:prometheus-2.8.1.linux-amd64.tar.gz,并上传到服务器# 1. 解压文件tar -zxvf prometheus-2.8.1.linux-amd64.tar.gz -C /opt/# 2. 重命名cd /optmv prometheus-2.8.1.linux-amd64 prometheuscd

2021-01-12 17:40:45 1304

原创 Spark Shuffle 源码

Spark Shuffle 源码在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。ShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子,即将一个函数应用在RDD的各个partition的数据集上,意味着一个job的运行结束//org.apache.spark.scheduler.DAGScheduler#sub

2020-12-28 16:55:24 469

原创 Spark 内核解析

Spark 内核解析一. Spark 内核概述Spark内核泛指Spark的核心运行机制,包括1.Spark核心组件的运行机制、2.Spark任务调度机制、3.Spark内存管理机制、4.Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。1. Spark 核心组件1. DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Drive

2020-12-28 16:53:18 198

原创 HDFS源码之NameNode 启动流程

HDFS源码之NameNode 启动流程1. start-dfs.sh"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" --config "$HADOOP_CONF_DIR" \ --hostnames "$NAMENODES" \ --script "$bin/hdfs" start namenode $nameStartOpt2. hadoop-daemons.sh"$bin/slaves.sh" --config $HADOOP_CONF_DIR

2020-11-24 15:43:24 694

原创 HDFS源码之MapReduce执行流程

HDFS源码之MapReduce执行流程1. Driver(mp程序启动driver)public static void main(String[] args) throws Exception { // 输入输出路径需要根据自己电脑上实际的输入输出路径设置 args = new String[] { "D:\\git\\study\\BigDataPro\\hadoop\\src\\main\\resources\\input", "D:\\git\\study\\B

2020-11-24 15:41:50 176

原创 HDFS源码之MapReduce提交job,split规则

HDFS源码之MapReduce提交job,split规则1. Driver(mp程序启动driver)public static void main(String[] args) throws Exception { // 输入输出路径需要根据自己电脑上实际的输入输出路径设置 args = new String[] { "D:\\git\\study\\BigDataPro\\hadoop\\src\\main\\resources\\input", "D:\\git\

2020-11-24 15:41:18 255

原创 HDFS源码之DataNode 启动流程

HDFS源码之DataNode 启动流程1. start-dfs.sh"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" --config "$HADOOP_CONF_DIR" \ --hostnames "$NAMENODES" \ --script "$bin/hdfs" start namenode $nameStartOpt2. hadoop-daemons.sh"$bin/slaves.sh" --config $HADOOP_CONF_DIR

2020-11-24 15:40:56 431

原创 hudi 编译

编译hudi下载hudigit clone https://github.com/apache/incubator-hudi.git && cd incubator-hudi编译mvn clean install -DskipTests -DskipITs注意: 这一步有可能会报错,我在编译的时候,因为hudi源码中hudi-utilities下的pom文件中有四...

2020-10-12 13:33:58 1980 2

原创 记录 hudi hive sync 代码端经历

记录 hudi hive sync 代码端经历前言之前写过篇博客hudi-hive-sync,提到了hive 同步有两种方式,有兴趣可以去看看。博客内的第一种方法稍微有一点问题。因为hudi 支持的hive版本为2.1.1,而之前我们测试环境的hive版本为1.2.1,所以关于方式一的报错,我们单方面的认为是hive版本不兼容的原因,加上当时环境不能说变就变,一直没有去研究这个问题;前不久,我们测试环境升级后,hive的版本升级到2.1.1,发现执行之前的代码还是这样报错,于是稍微研究了hudi h

2020-09-18 11:13:06 3460 9

原创 Spark 任务划分,调度,执行

Spark 任务划分,调度,执行def main(args: Array[String]): Unit = { //使用IDEA开发工具完成WordCount //local 模式 //创建SparkConf对象 val conf = new SparkConf().setMaster("local[3]").setAppName("Word Count") val sc = new SparkContext(conf) //读取文件内容 val

2020-07-03 20:44:43 257

转载 Atomic原子类操作

本节思维导图:Atomic 翻译成中文是原子的意思。在化学上,我们知道原子是构成一般物质的最小单位,在化学反应中是不可分割的。在我们这里 Atomic 是指一个操作是不可中断的。即使是在多个线程一起执行的时候,一个操作一旦开始,就不会被其他线程干扰。所以,所谓原子类说简单点就是具有原子/原子操作特征的类。并发包 java.util.concurrent 的原子类都存放在java.util.c...

2020-07-01 19:37:01 149

原创 四.SparkSQL

C_SparkSQL一. 概述1. 什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrameDataSet并且作为分布式SQL查询引擎的作用。众所周知的Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率

2020-07-01 19:25:08 192

原创 五.SparkStreaming

E. SparkStreaming一.SparkStreaming概述1. SparkStreaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Str

2020-06-30 20:25:10 146

原创 Kerberos 与hadoop组件之间的认证问题 持续更新

ICMP Port UnreachableCaused by: javax.security.auth.login.LoginException: ICMP Port Unreachable at com.sun.security.auth.module.Krb5LoginModule.attemptAuthentication(Krb5LoginModule.java:808) at com.sun.security.auth.module.Krb5LoginModule.login(Krb5L.

2020-06-30 18:25:31 3421 2

原创 三.Spark_RDD(下)

C_Spark_RDD(下)一. RDD中的函数传递1. 传递一个方法package cn.xhjava.spark.rdd.funcationtransmitimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在实际开发中我们往往需要自己定义一些对于RDD的操作, * 那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端

2020-06-29 20:47:40 150

原创 二.Spark_RDD(上)

B_Spark_RDD(上)一. RDD概述1. 什么是RDDRDD(Resilient DistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2. RDD的属性一组分区(Partition),即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数一个列表,存储存放每个Partition的优先位置3. RDD的特点RD

2020-06-29 20:45:41 136

原创 一.Spark基本介绍

A_Spark基本介绍一.Spark历史所以,Yarn问世了,Yarn由ResourceManager和NodeManager组成ResourceManager(RM)的主要作用处理客户端的请求(Spark-submit提交job)监控NodeManager(监控节点状态)启动或监控ApplicationMaster,每一个运行在yarn上的程序,都存在一个ApplicationMaster,只是该AM是随机在任意一个NodeManager上创建的资源的分配与调度NodeManag

2020-06-29 20:20:16 590

原创 hudi-hive-sync

hudi-hive-syncSyncing to Hive 有两种方式:在hudi 写时同步使用run_sync_tool.sh 脚本进行同步1. 代码同步val spark = SparkSession .builder() .config(sparkConf) .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate()

2020-06-02 11:26:02 4325

原创 java jdbc连接kerberos认证hive

hive 集成kerber后,jdbc连接操作hivepublic static void main(String[] args) throws Exception { System.setProperty("java.security.krb5.conf", "E:\\conf\\xh\\local\\krb5.conf"); Configuration config = new Configuration(); UserGroupInformation.

2020-05-29 10:50:09 3453

原创 SparkStreaming Kafka Kerberos 认证问题

目前在公司开发SparkStreaming 消费kafka数据,因为hadoop集群启用了kerberos认证,走了不少弯路,现在记录一下:代码使用local模式跑是完全ok的,但是run on yarn 上,一直报错:Exception in thread "main" org.apache.kafka.common.KafkaException: Failed to construct kafka consumer at org.apache.kafka.clients.consumer.Kafk

2020-05-26 09:43:23 1519 6

原创 Group coordinator lookup failed: The coordinator is not available.问题

背景:最近使用的项目中用到了kafka,并且需要集成kerberos.这边kerberos认证已经通过,但是在消费的时候一直拉不到数据,随后使用shell命令在服务器上消费数据,结果一样。后面更改日志级别,发现一直循环打印如下日志:2020-05-21 10:05:06.651 [ForkJoinPool-1-worker-5] DEBUG org.apache.kafka.clients.Metadata - Updated cluster metadata version 133 to Cluste

2020-05-21 10:41:53 3264

原创 hadoop相关问题报错

SIMPLE authentication is not enabled. Available:[TOKEN, KERBEROS]hadoop集成kerberos,多半是因为kerberos认证hadoop时,hadoop的配置文件没有被加载或者是加载不正确

2020-05-08 20:12:02 1902

原创 java中的动态绑定机制

java中的动态绑定机制1. 简单版public class Test { public static void main(String[] args) { Father father = new Son(); System.out.println(father.getResult());//40 //这段代码很简单,java中多态的特性...

2020-04-27 20:28:12 172

centos 7 安装bbc.zip

centos 上安装bbc所需依赖

2021-07-21

elastic-search.zip

elastic-search

2021-07-12

kubernets 二进制包安装所需资源

kubernets 二进制包安装所需资源

2021-07-02

etcd 集群部署包 TLS.tar.gz

k8s etcd 集群部署包

2021-06-29

gitlab-ce-13.10.2-ce.0.el7.x86_64.rpm

gitlab rpm 安装包

2021-06-21

prometheus + grafana 监控所需文件

spark_prometheus_metrics.json

2021-01-04

MySQL--5.6.22-1.el6.i686.rpm.zip

适用于Linux上数据库安装,RPM安装包 MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 与其他的大型数据库 LAMP LAMP 例如 Oracle、DB2、SQL Server等相比,MySQL [1] 自有它的不足之处,但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说,MySQL提供的功能已经绰绰有余,而且由于 MySQL是开放源码软件,因此可以大大降低总体拥有成本。

2019-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除