地球人是我哈-CSDN博客

我们在使用Flink时，如果遇到了Hadoop环境有Kerberos认证，可以直接在flink-conf.yaml文件中添加配置security.kerberos.login.contexts: Client,KafkaClientsecurity.kerberos.login.use-ticket-cache: truesecurity.kerberos.login.keytab: /etc/security/keytab/hdfs.keytabsecurity.kerberos.login.pr

2022-05-24 09:57:19 696

原创 Hbase-Phoneix Implementing class

在使用 hbase + phoneix 抽取索引数据时，执行命令：hbase org.apache.phoenix.mapreduce.index.IndexTool --data-table HBASE_PHONEIX_TEST --index-table HBASE_PHONEIX_TEST_INDEX --output-path ASYNC_IDX_HFILES出现如下报错：org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl

2021-07-29 10:25:32 181

原创 Maven如何排除引入依赖中的某个类

传送门

2021-06-18 18:02:07 5538

原创 Redis 集群安装搭建

https://www.yuque.com/docs/share/40441c55-3433-4560-996d-7519eebe35a3?# 《00-Redis集群搭建》

2021-04-27 16:29:17 62

原创 Flink HBaseLookupFunction

Flink HBaseLookupFunctionFlink版本：1.12.2Flink源码内有HbaseLookupFuncation类，最近想试试kafka 流数据实时关联hbase维表数据，看看使用HbaseLookupFuncation能否成功使用，于是稍微研究：1. Flink源码:HBaseLookupFunctionpackage org.apache.flink.connector.hbase.source;import org.apache.flink.annotation

2021-04-09 14:51:31 698

原创 Flink是如何实现Exactly Once

Flink是如何实现Exactly Once ?在了解Exactly Once 之前，首先得先知道Flink内部的Checkpoint 是干啥的？1. CheckPoint 简介Flink Checkpoint机制的存在，是为了解决Flink任务在运行的过程中，由于各种问题导致任务异常中断后，能正常恢复。我们看看在Checkpoint 的过程中，到底做了哪些事？Checkpoint 是通过快照的方式，将程序在某个时刻的状态，通过快照保存下来，当程序发送错误时，默认去最近一次保存的快照中恢复。（快照暂

2021-03-30 16:18:38 2289 1

原创 SQLServer Bulk insert 操作

SQLServer Bulk insert 操作之前一直使用的方式为：jdbc batch insert，多条数据做一次提交，由于此方法太慢了，发现sqlserver 有bulk insert 这种提交方式，具体操作如下：1. 创建sqlserver 表CREATE TABLE [dbo].[bulk_test] ( id varchar(200), name nvarchar(200), age varchar(200), sex varchar(200),)2. 生成待导入文

2021-03-18 15:02:18 2624

原创 Kafka Shell Lag

Kafka Shell Lagkafka 版本：2.1.0前言在生产环境中，比如你正在使用group kafka-lag消费某topic内的数据。目前你没有搭建对应的监控系统，你如何去查看对应partition 的堆积信息呢？很多人都会去使用这个命令：# 正常使用kafka-consumer-groups --bootstrap-server master:9092 --describe --group default# 系统存在kerberos认证使用kafka-consumer-grou

2021-01-13 11:02:35 501 1

原创 Prometheus + InfluxDB +Grafana 监控安装部署

Prometheus + Influx +Grafana 监控安装部署下载监控所需安装包：下载地址一. Prometheus安装# 从下载的安装文件夹内找到安装包:prometheus-2.8.1.linux-amd64.tar.gz，并上传到服务器# 1. 解压文件tar -zxvf prometheus-2.8.1.linux-amd64.tar.gz -C /opt/# 2. 重命名cd /optmv prometheus-2.8.1.linux-amd64 prometheuscd

2021-01-12 17:40:45 1304

原创 Spark Shuffle 源码

Spark Shuffle 源码在划分stage时，最后一个stage称为finalStage，它本质上是一个ResultStage对象，前面的所有stage被称为ShuffleMapStage。ShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子，即将一个函数应用在RDD的各个partition的数据集上，意味着一个job的运行结束//org.apache.spark.scheduler.DAGScheduler#sub

2020-12-28 16:55:24 469

原创 Spark 内核解析

Spark 内核解析一. Spark 内核概述Spark内核泛指Spark的核心运行机制，包括1.Spark核心组件的运行机制、2.Spark任务调度机制、3.Spark内存管理机制、4.Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。1. Spark 核心组件1. DriverSpark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。Drive

2020-12-28 16:53:18 198

原创 HDFS源码之NameNode 启动流程

HDFS源码之NameNode 启动流程1. start-dfs.sh"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" --config "$HADOOP_CONF_DIR" \ --hostnames "$NAMENODES" \ --script "$bin/hdfs" start namenode $nameStartOpt2. hadoop-daemons.sh"$bin/slaves.sh" --config $HADOOP_CONF_DIR

2020-11-24 15:43:24 694

原创 HDFS源码之MapReduce执行流程

HDFS源码之MapReduce执行流程1. Driver（mp程序启动driver）public static void main(String[] args) throws Exception { // 输入输出路径需要根据自己电脑上实际的输入输出路径设置 args = new String[] { "D:\\git\\study\\BigDataPro\\hadoop\\src\\main\\resources\\input", "D:\\git\\study\\B

2020-11-24 15:41:50 176

原创 HDFS源码之MapReduce提交job，split规则

HDFS源码之MapReduce提交job，split规则1. Driver（mp程序启动driver）public static void main(String[] args) throws Exception { // 输入输出路径需要根据自己电脑上实际的输入输出路径设置 args = new String[] { "D:\\git\\study\\BigDataPro\\hadoop\\src\\main\\resources\\input", "D:\\git\

2020-11-24 15:41:18 255

原创 HDFS源码之DataNode 启动流程

HDFS源码之DataNode 启动流程1. start-dfs.sh"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" --config "$HADOOP_CONF_DIR" \ --hostnames "$NAMENODES" \ --script "$bin/hdfs" start namenode $nameStartOpt2. hadoop-daemons.sh"$bin/slaves.sh" --config $HADOOP_CONF_DIR

2020-11-24 15:40:56 431

原创 hudi 编译

编译hudi下载hudigit clone https://github.com/apache/incubator-hudi.git && cd incubator-hudi编译mvn clean install -DskipTests -DskipITs注意: 这一步有可能会报错，我在编译的时候，因为hudi源码中hudi-utilities下的pom文件中有四...

2020-10-12 13:33:58 1980 2

原创记录 hudi hive sync 代码端经历

记录 hudi hive sync 代码端经历前言之前写过篇博客hudi-hive-sync，提到了hive 同步有两种方式，有兴趣可以去看看。博客内的第一种方法稍微有一点问题。因为hudi 支持的hive版本为2.1.1，而之前我们测试环境的hive版本为1.2.1，所以关于方式一的报错，我们单方面的认为是hive版本不兼容的原因，加上当时环境不能说变就变，一直没有去研究这个问题；前不久，我们测试环境升级后，hive的版本升级到2.1.1，发现执行之前的代码还是这样报错，于是稍微研究了hudi h

2020-09-18 11:13:06 3460 9

原创 Spark 任务划分，调度，执行

Spark 任务划分，调度，执行def main(args: Array[String]): Unit = { //使用IDEA开发工具完成WordCount //local 模式 //创建SparkConf对象 val conf = new SparkConf().setMaster("local[3]").setAppName("Word Count") val sc = new SparkContext(conf) //读取文件内容 val

2020-07-03 20:44:43 257

转载 Atomic原子类操作

本节思维导图:Atomic 翻译成中文是原子的意思。在化学上，我们知道原子是构成一般物质的最小单位，在化学反应中是不可分割的。在我们这里 Atomic 是指一个操作是不可中断的。即使是在多个线程一起执行的时候，一个操作一旦开始，就不会被其他线程干扰。所以，所谓原子类说简单点就是具有原子/原子操作特征的类。并发包 java.util.concurrent 的原子类都存放在java.util.c...

2020-07-01 19:37:01 149

原创四.SparkSQL

C_SparkSQL一. 概述1. 什么是SparkSQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrameDataSet并且作为分布式SQL查询引擎的作用。众所周知的Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率

2020-07-01 19:25:08 192

原创五.SparkStreaming

E. SparkStreaming一.SparkStreaming概述1. SparkStreaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。和Spark基于RDD的概念很相似，Spark Str

2020-06-30 20:25:10 146

原创 Kerberos 与hadoop组件之间的认证问题持续更新

ICMP Port UnreachableCaused by: javax.security.auth.login.LoginException: ICMP Port Unreachable at com.sun.security.auth.module.Krb5LoginModule.attemptAuthentication(Krb5LoginModule.java:808) at com.sun.security.auth.module.Krb5LoginModule.login(Krb5L.

2020-06-30 18:25:31 3421 2

原创三.Spark_RDD(下)

C_Spark_RDD（下）一. RDD中的函数传递1. 传递一个方法package cn.xhjava.spark.rdd.funcationtransmitimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在实际开发中我们往往需要自己定义一些对于RDD的操作， * 那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端

2020-06-29 20:47:40 150

原创二.Spark_RDD(上)

B_Spark_RDD（上）一. RDD概述1. 什么是RDDRDD（Resilient DistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。2. RDD的属性一组分区（Partition），即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner，即RDD的分片函数一个列表，存储存放每个Partition的优先位置3. RDD的特点RD

2020-06-29 20:45:41 136

原创一.Spark基本介绍

A_Spark基本介绍一.Spark历史所以，Yarn问世了，Yarn由ResourceManager和NodeManager组成ResourceManager(RM)的主要作用处理客户端的请求(Spark-submit提交job)监控NodeManager(监控节点状态)启动或监控ApplicationMaster，每一个运行在yarn上的程序，都存在一个ApplicationMaster，只是该AM是随机在任意一个NodeManager上创建的资源的分配与调度NodeManag

2020-06-29 20:20:16 590

原创 hudi-hive-sync

hudi-hive-syncSyncing to Hive 有两种方式:在hudi 写时同步使用run_sync_tool.sh 脚本进行同步1. 代码同步val spark = SparkSession .builder() .config(sparkConf) .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate()

2020-06-02 11:26:02 4325

原创 java jdbc连接kerberos认证hive

hive 集成kerber后，jdbc连接操作hivepublic static void main(String[] args) throws Exception { System.setProperty("java.security.krb5.conf", "E:\\conf\\xh\\local\\krb5.conf"); Configuration config = new Configuration(); UserGroupInformation.

2020-05-29 10:50:09 3453

原创 SparkStreaming Kafka Kerberos 认证问题

目前在公司开发SparkStreaming 消费kafka数据，因为hadoop集群启用了kerberos认证，走了不少弯路，现在记录一下：代码使用local模式跑是完全ok的，但是run on yarn 上，一直报错:Exception in thread "main" org.apache.kafka.common.KafkaException: Failed to construct kafka consumer at org.apache.kafka.clients.consumer.Kafk

2020-05-26 09:43:23 1519 6

原创 Group coordinator lookup failed: The coordinator is not available.问题

背景：最近使用的项目中用到了kafka，并且需要集成kerberos.这边kerberos认证已经通过，但是在消费的时候一直拉不到数据，随后使用shell命令在服务器上消费数据，结果一样。后面更改日志级别，发现一直循环打印如下日志:2020-05-21 10:05:06.651 [ForkJoinPool-1-worker-5] DEBUG org.apache.kafka.clients.Metadata - Updated cluster metadata version 133 to Cluste

2020-05-21 10:41:53 3264

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

centos 7 安装bbc.zip

elastic-search.zip

kubernets 二进制包安装所需资源

etcd 集群部署包 TLS.tar.gz

gitlab-ce-13.10.2-ce.0.el7.x86_64.rpm

prometheus + grafana 监控所需文件

MySQL--5.6.22-1.el6.i686.rpm.zip

空空如也