andyonlines-CSDN博客

原创 17 插值查找

插值查找算法类似于二分查找，不同的是插值查找每次从自适应 mid 处开始查找。将折半查找中的求 mid 索引的公式 , low 表示左边索引 left, high 表示右边索引 right.key 就是前面我们讲的 findVal.2 插入排序法的代码实现。1 插入排序法思想。1 插入排序法思想。

2023-02-17 22:24:24 54

文章目录1 kafka文件存储机制![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/4565bde8485ebdf1c2111a6b14f03a96.png)2 索引文件和log文件的查找机制1 kafka文件存储机制kafka 采用分片和索引机制, 将每个partition分为多个segment.每个segment对应两个文件 – “index” 和 “log”.分别表示为segment索引文件和数据文件（引入索引文件的目的就是便于利用二分查找快

2021-07-22 09:38:06 96

原创二 kafka的概念

文章目录1 什么是kafka2 组件概念2.1 broker2.2 topic2.3 partition2.4 producer2.5 consumer2.6 Consumer Group2.7 offset1 什么是kafkakafka 是一个分布式的,分布订阅模式的消息队列.2 组件概念2.1 brokerkafka的节点,一个kafka节点就是一个broker2.2 topictopic就是数据主题,相当于给数据分类,不同的业务数据可以放到不同topic里面.2.3 partition

2021-07-21 11:59:11 166

原创一 kafka安装部署

文章目录1 server.properties2 kafka 群起脚本1 server.properties#broker的全局唯一编号，不能重复broker.id=0#删除topic功能使能delete.topic.enable=true#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的现成数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=102400#接收套接字的缓冲区大小socke

2021-06-19 18:26:08 83 2

原创 3 flume 自定义组件

文章目录1 自定义 Interceptor1.1 案例需求1.2 需求分析1.3 实现步骤2 自定义 Source2.1 介绍2.2 需求2.3 编码3 自定义 Sink3.1 介绍3.2 需求1 自定义 Interceptor1.1 案例需求使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。1.2 需求分析在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Mul

2021-05-26 08:32:37 71

原创 MapReduce Job 提交流程源码解析

文章目录1 大体流程1 大体流程waitForCompletion()submit();// 1 建立连接connect();// 1）创建提交 Job 的代理new Cluster(getConfiguration());// （1）判断是本地运行环境还是 yarn 集群运行环境initialize(jobTrackAddr, conf); // 2 提交 jobsubmitter.submitJobInternal(Job.this, cluster)// 1）创建给集群提交数

2021-03-18 00:17:10 115

原创 hdfs HA 出现Cannot find any valid remote NN to service request

文章目录所有的nameNode 都是standby状态,查看出现Cannot find any valid remote NN to service request解决办法:停掉hadoop的服务在所有的nameNode上执行hdfs zkfc -formatZK

2021-03-13 11:33:50 2077

原创四.2 hadoop常用端口号

文章目录端口名称hadoop2.xhadoop3.xNamenode内部通信端口8020/90008020/900/9820NamenodeHTTP UI500709870Mapreduce查看执行任务端口80888088历史服务器通信端口1988819888

2021-03-13 09:39:18 86

原创 java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument

当使用idea 运行hadoop client操作hdfs是出现以下错误java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.C

2021-02-03 23:32:15 3188 2

原创 clickhouse jdbc dem

public class ClickhouseConn { public static void main(String[] args) throws SQLException { Connection connection = DriverManager.getConnection("jdbc:clickhouse://hadoop105:8123","default","000000"); PreparedStatement pstmt = connection

2021-01-31 20:10:26 85

原创四.1 hadoop 3.1.3 非HA 集群安装部署

文章目录1 集群部署2 修改hadoop-env.sh,yarn-env.sh,mapred-env.sh文件3 修改core-site.xml文件4 hdfs-site.xml5 yarn-site.xml6 mapred-site.xml7 workers文件8 启动停止9访问页面地址9.1 yarn:9.2 hdfs10 测试1 集群部署2 修改hadoop-env.sh,yarn-env.sh,mapred-env.sh文件在上面三个文件中添加jdk 路径export JAVA_HOME=

2021-01-24 16:40:51 95

原创 3 zookeeper 命令

文章目录1 常见命令2 Stat状态说明3 监听器原理4 选举机制5 写数据流程6 读数据流程1 常见命令2 Stat状态说明3 监听器原理(1) 监听原理详解：1）首先要有一个main()线程2）在main线程中创建Zookeeper客户端，这时就会创建两个线程，一个负责网络连接通信（connet），一个负责监听（listener）。3）通过connect线程将注册的监听事件发送给Zookeeper。4）在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中。5）Zoo

2021-01-24 11:07:25 76

原创 2 zookeeper 的客户端和配置参数解读

文章目录1 客户端启动2 zoo.cfg配置参数解读1 客户端启动zkCli.sh默认是连接localhost的2181端口zkCli.sh –server hostname:port可以使用zkCli.sh –server hostname:port 来连接不同的服务端使用quit或者ctrl+c可以退出客户端2 zoo.cfg配置参数解读1）tickTime：通信心跳数，Zookeeper服务器心跳时间，单位毫秒Zookeeper使用的基本时间，服务器之间或客户端与服务器之间维持心

2021-01-24 10:38:58 349

原创 1 zookeeper 3.5.7安装部署

文章目录1 下载zookeeper2 安装2.1 解压zookeeper安装包到/opt/module/目录下2.2 在/opt/module/zookeeper-3.5.7/这个目录下创建zkData2.3 重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg2.4 配置zoo.cfg文件3 编写zookeeper 启动脚本1 下载zookeeper下载地址:https://zookeeper.apache.org/2 安装

2021-01-24 10:17:33 338

原创 scala 导包说明

scala中的三个默认导入分别是import java.lang._import scala._import scala.Predef._

2021-01-23 11:51:21 246

原创 scala 闭包

object TestBreak { var f = 3 val mu = (i:Int) => i * f def main(args: Array[String]): Unit = { var f = 4 println( "muliplier(1) value = " + mu(1)) }}输出:muliplier(1) value = 3main方法的f=4不会影响mu的闭包.

2021-01-23 11:46:43 40

原创 flink 命令

./flink cancel 61f309083cb554d9a90f207b8c19d617 -s hdfs:///user/flink/cluster_yarn/savepointsbin/flink cancel -m 127.0.0.1:8081 -s /tmp/savepoint

2021-01-19 00:11:15 152

原创 flink配置

./bin/flink list 列出计划和正在运行的job./bin/flink list -s 列出预定job./bin/flink list -r 列出正在运行的job./bin/flink list -m yarn-cluster -yid -r 列出在YARN 中运行的job./bin/flink cancel 通过jobID取消job./bin/flink stop 通过jobID停止jobenv.log.dir: /var/log/flinkhigh

2021-01-18 23:55:32 328

原创 flink CDH

https://blog.csdn.net/qq_31454379/article/details/110440037?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242https://blog.csdn.net/m0_46919785/article/details/109204668?utm_medium=distribute.pc_relevant.none-task

2021-01-13 22:51:14 66

原创二 clickhoue 数据分区规则

文章目录1 分区规则1.1 不定分区书友数据使用all分区1.2 使用整型直接按照整型的字符形式输出.1.3 使用日期使用YYYYMMDD的进行格式化1.4 使用其它类型通过128位的hash算法作为分区的ID2 使用多分区字段3 分区id的解析4 合并过程1 分区规则1.1 不定分区书友数据使用all分区1.2 使用整型直接按照整型的字符形式输出.1.3 使用日期使用YYYYMMDD的进行格式化1.4 使用其它类型通过128位的hash算法作为分区的ID2 使用多分区字段分区I

2020-12-13 12:28:48 1099 1

原创 flink 监控url

以下是可用请求的列表，并带有示例JSON响应。所有请求都是示例表格http://hostname:8082/jobs，我们在下面仅列出了URL的路径部分。尖括号中的值是变量，例如，http://hostname:port/jobs//exceptions必须要求为http://hostname:port/jobs/7684be6004e4e955c2a558a9bc463f65/exceptions。/config/jobs/overview/jobs//jobs//vertices/jobs/

2020-11-15 19:45:18 365

原创 shell 分割字符串

#!/bin/bash#arr=( "a" "b" "**" "c")#for i in ${arr[@]}#do# echo "$i"#doneline="a b ** c"var1=`echo "$line"|awk -F ' ' '{print $3}'`echo "$var1"

2020-10-11 18:55:43 815

原创一 clickhouse DDL查询

文章目录1 数据库1.1 建库1.2 删除数据库, 查看数据库2 建表2.1 传统方法2.2 从已存在的表中只复制表结构2.3 从已存在的表中复制表结构和数据3 默认表达式4 临时表5 分区表1 数据库1.1 建库create database if not exists db_test [ENGINE = engine];[ENGINE = engine] 代表的是数据库引擎,有5种:(1) ordinary(默认):可以使用任意类型的表引擎(2) dictionary:字典引擎,会为所有

2020-09-18 21:47:18 2611

原创静态表join动态表

package org.example.windowfuncimport java.sql.{Connection, DriverManager, PreparedStatement, ResultSet}import org.apache.flink.api.common.functions.{FlatMapFunction, RichFlatMapFunction}import org.apache.flink.configuration.Configurationimport org.ap

2020-08-30 20:56:19 193

原创十四 Flink table API

文章目录1 需要的依赖pom文件1.1 流程2 创建环境2.1 基于流处理执行环境，调 create 方法直接创建2.2 配置老版本的流式查询（Flink-Streaming-Query）2.3 基于老版本的批处理环境（Flink-Batch-Query）2.4 基于 blink 版本的流处理环境（Blink-Streaming-Query）2.5 基于 blink 版本的批处理环境（Blink-Batch-Query）2.6 案例3 在 Catalog 中注册表3.1 连接到文件系统（Csv 格式）3.2

2020-08-30 19:38:52 634

空空如也

hive 创建JsonSerDe 类型表每次使用datagrip运行sql时出现错误

hive on spark 打开文件过多错误

clickhouse出现 Connection refused 的异常

clickhouse 如何实现字段自增

shell 定义数组中有特殊的符号

flink kekby 分区问题

flink Could not find a file system implementation for scheme 'hdfs' 异常

Python BeautifulSoup获取属性值怎么?