哥伦布112-CSDN博客

原创博客地址

Flink - RocksDBStateBackendhttps://yq.aliyun.com/articles/73219/Checkpoint对齐机制源码分析https://blog.csdn.net/u013516966/article/details/104096988

2020-06-29 22:00:56 152

原创 2020-11-30

sparkSql 当前时间前N小时select from_unixtime(unix_timestamp(current_timestamp) - 1* 60 * 60 *N,‘yyyy-MM-dd HH:mm:ss’) as sub

2020-11-30 15:32:29 293 1

hvie 窗口函数目录1 窗口函数 Windowing functions2 OVER详解 The OVER clause2.1 标准聚合函数2.2 分析函数 Analytics functions2.3 OVER子句也支持聚合函数2.4 window clause 的另一种写法1 窗口函数 Windowing functionsFIRST_VALUE(col, bool DEFAULT)返回分组窗口内第一行col的值，DEFAULT默认为false，如果指定为true

2020-11-30 15:25:03 286

原创 Mac 下 ssh 开启服务

在Mac通过ssh localhost 拒绝访问的问题，可能是由于sshd服务未开启1、开启sshd服务sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist2、查看ssh的服务是否开启sudo launchctl list |grep ssh3、sudo ssh localhost连接本地localhost成功...

2020-09-08 11:23:44 439

原创 Mac下SSH免密登录localhost

step1ssh-keygen -t rsa Press enter for each line 提示输入直接按回车就好 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod og-wx ~/.ssh/authorized_keys chmod 750 $HOME 第四步才是最重要的一步，这一步不做的话每次ssh localhost都会让你输密码，恶心死了。大家可以copy上面的指令依次执行即可。还不行的话参考stack

2020-09-08 10:54:54 476 1

原创 hive中内部表及外部表特性差异

关键点：ARCHIVE/UNARCHIVE/TRUNCATE/MERGE/CONCATENATE命令只能在内部表上进行使用;DROP操作将会删除内部表的元数据及数据信息,而对于外部表则仅仅删除元数据信息;ACID的事务特性仅仅适用于内部表; 查询结果缓存只适用于内部表;外部表的表约束只支持RELY操作;一些物化视图的特性只适用于内部表;hive中表的两种基本类型1)、内部表(managed)--默认2)、外部表(external)简介本文将介绍内部表及..

2020-09-01 17:40:09 619

原创 Flink 源码分析之 Flink startupMode 是如何起作用的

之前一直有个疑问，如果consumer.setStartFromLatest()以及kafkaProperties.put("auto.offset.reset", "earliest")同时存在，究竟哪一个会起作用，答案肯定是consumer.setStartFromLatest()，为什么呢？我们一起来看一下@Overridepublic void open(Configuration configuration) throws Exception {// determine th.

2020-07-31 00:40:18 1042 1

原创 Flink 源码分析之 Flink 是如何 kafka 读取数据的

首先来看一下 FlinkKafkaConsumerBase.run方法，相当于是Flink 从kafka中拉取数据的入口方法://入口方法 start a sourcepublic void run(SourceContext<T> sourceContext) throws Exception {......// from this point forward:// - 'snapshotState' will draw offsets from the f.

2020-07-31 00:39:36 619

原创 Flink 源码分析之 FlinkConsumer 是如何保证一个 partition 对应一个 thread 的

我们都知道flink 连接kafka时，默认是一个partition对应一个thread，它究竟是怎么实现的呢？以及到我们自己定义 RichParallelSourceFunction 的时候如何借鉴这部分代码呢？我们一起来看一下(基于flink-1.8)看过flink kafka连接器源码的同学对 FlinkKafkaConsumerBase 应该不陌生(没有看过的也无所谓，我们一起来看就好)一起来看一下 FlinkKafkaConsumerBase 的 open 方法中关键的部分.

2020-07-31 00:38:49 202

原创 Flink 源码分析之 Flink 自定义 source、sink 是如何起作用的

自从学会自定义source之后，一直都比较好奇，为什么我实现一个 *SourceFunction，我自己定义的代码就可以跟 Flink很好的整合在一起？下面以 RichParallelSourceFunction 为例，来具体看一下究竟是自定义 source 是如何执行的首先看一下 Flink中的抽象类 AbstractUdfStreamOperator，专门负责Rich*Function的 open 和close方法......// flink 提供的 Rich*Funct.

2020-07-31 00:38:09 376

原创 Flink 源码分析之一文搞懂 Flink 消息全流程

我们以下面代码为例：FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>("canal_monitor_order_astable", new SimpleStringSchema(), properties);consumer.setStartFromEarliest();env.addSource(consumer).flatMap(...).print()当 Flink.

2020-07-31 00:37:14 468

原创 Flink 源码分析之写给大忙人看的 Flink Window 原理

Window 可以说是 Flink 中必不可少的 operator 之一，在很多场合都有很非凡的表现。今天呢，我们就一起来看一下 window 是如何实现的。window 分类Tumbling WindowSliding WindowSession WindowGlobal Windowwindow operatorevictorevictor 主要用于做一些数据的自定义操作，可以在执行用户代码之前，也可以在执行用户代码之后，更详细的描

2020-07-31 00:35:25 377

原创 Flink 源码分析之 - 如何保存 offset

Flink对Offset的管理，有两种方式：1.Checkpointing disabled 完全依赖于kafka自身的API2.Checkpointing enabled 当checkpoint做完的时候，会将offset提交给kafka or zk本文只针对于第二种，Checkpointing enabledFlinkKafkaConsumerBase中的 notifyCheckpointComplete@Override//当checkpoint完成的时候，此方.

2020-07-31 00:33:36 1076

原创 Spark SQL之External DataSource外部数据源（二）源码分析

上周Spark1.2刚发布，周末在家没事，把这个特性给了解一下，顺便分析下源码，看一看这个特性是如何设计及实现的。 /**Spark SQL源码分析系列文章*/（Ps: External DataSource使用篇地址：Spark SQL之External DataSource外部数据源（一）示例http://blog.csdn.net/oopsoom/article/details/42061077）一、Sources包核心 Spark SQL在Spark1.2中提供了...

2020-07-31 00:30:01 352

原创 Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query

前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。那么基于以上存储结构，我们查询cache在jvm内的数据又是如何查询的，本文将揭示查询In-Memory Data的方式。一、引子本例使用hive console里查询cache后的src表。select value from src当我们将src表cache到了内存后，再次查询src，可以通过analyzed执行计划来观察内部调用。即parse后，会形成InMemor..

2020-07-31 00:29:17 242

原创 Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table

Spark SQL 可以将数据缓存到内存中，我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中，来极大的提高查询效率。这就涉及到内存中的数据的存储形式，我们知道基于关系型的数据可以存储为基于行存储结构或者基于列存储结构，或者基于行和列的混合存储，即Row Based Storage、Column Based Storage、 PAX Storage。 Spark SQL 的内存数据是如何组织的？ Spark SQL 将数据加载到内存是...

2020-07-30 15:53:24 632

原创 Spark SQL Catalyst源码分析之UDF

在SQL的世界里，除了官方提供的常用的处理函数之外，一般都会提供可扩展的对外自定义函数接口，这已经成为一种事实的标准。在前面Spark SQL源码分析之核心流程一文中，已经介绍了Spark SQL Catalyst Analyzer的作用，其中包含了ResolveFunctions这个解析函数的功能。但是随着Spark1.1版本的发布，Spark SQL的代码有很多新完善和新功能了，和我先前基于1.0的源码分析多少有些不同，比如支持UDF：spark1.0及以前的实现：...

2020-07-30 15:52:44 297

原创 Spark SQL 源码分析之Physical Plan 到 RDD的具体实现

接上一篇文章Spark SQL Catalyst源码分析之Physical Plan，本文将介绍Physical Plan的toRDD的具体实现细节：我们都知道一段sql，真正的执行是当你调用它的collect()方法才会执行Spark Job，最后计算得到RDD。 lazy val toRdd: RDD[Row] = executedPlan.execute() Spark Plan基本包含4种操作类型，即BasicOperator基本类型，还有就是Join、Aggregate和S...

2020-07-30 15:52:06 393

原创 Spark SQL Catalyst源码分析之Physical Plan

前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程，以及Catalyst包内的SqlParser，Analyzer和Optimizer，最后要介绍一下Catalyst里最后的一个Plan了，即Physical Plan。物理计划是Spark SQL执行Spark job的前置，也是最后一道计划。如图：一、SparkPlanner话接上回，Optimizer接受输入的Analyzed Logical Plan后，会有SparkPlanner来对Opti...

2020-07-30 15:51:26 402

原创 Spark SQL Catalyst源码分析之Optimizer

/**Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer以及核心类库TreeNode，本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式，并加上自己的实践，对Optimizer有一个直观的认识。 Optimizer的主要职责是将Analyzer给Resolved的Logical Plan根据不同的优化策略Batch，来对语法树进行优...

2020-07-30 15:50:40 308

原创 Spark SQL Catalyst源码分析之TreeNode Library

/**Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer，本来打算直接写Optimizer的，但是发现忘记介绍TreeNode这个Catalyst的核心概念，介绍这个可以更好的理解Optimizer是如何对Analyzed Logical Plan进行优化的生成Optimized Logical Plan，本文就将TreeNode基本架构进行解释。一、TreeNode类型 ...

2020-07-30 15:49:37 341

原创 Spark SQL Catalyst源码分析之Analyzer

/**Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql，经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的组件式Analyzer，本文将会介绍Analyzer在Spark SQL里起到了什么作用。 Analyzer位于Catalyst的analysis package下，主要职责是将Sql Pa...

2020-07-30 15:48:43 377

原创 Spark SQL Catalyst源码分析之SqlParser

/**Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕，可以参见Spark SQL核心执行流程，下面我们来分析执行流程中各个核心组件的工作职责。本文先从入口开始分析，即如何解析SQL文本生成逻辑计划的，主要设计的核心组件式SqlParser是一个SQL语言的解析器，用scala实现的Parser将解析的结果封装为Catalyst TreeNode ，关于Catalyst这个框架后续文章会介绍。一、SQL Parser入口 Sq...

2020-07-30 15:48:05 355

原创 Spark SQL源码分析之核心流程

/**Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQL的贡献者从几人到了几十人，而且发展速度异常迅猛，究其原因，个人认为有以下2点： 1、整合：将SQL类型的查询语言整合到 Spark 的核心RDD概念里。这样可以应用于多种任务，流处理，批处理，包括机器学习里都可以引入Sql。 2、效率：因为Shark受到hive的编程模型限制，无法再继续优化来...

2020-07-30 15:47:08 145

原创 Spark详解（十四）：Spark SQL的Join实现

1. 简介Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。Join连接是大数据处理的重要手段，它基于表之间的共同字段将来自两个或多个表的行结合起来。如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的。2. Join的基本要素如下图所示，Join大致包括三个要素：Join方

2020-07-30 01:53:39 1948

原创 sql：谓词

谓词就是返回值为真值的函数。1.like谓词：字符串的部分一致查询取ddd开头的字符串： select * from SampleLike where strcol like 'ddd%'; %代表0字符以上的任意字符串，是通配符其中的一种2.between谓词：范围查找选取销售单价为100-1000的商品： select product_name, sale_price from Product where sal..

2020-07-29 18:33:10 318

原创关系代数运算符

关系代数运算符集合运算符运算符含义英文 ∪ 并 Union − 差 Difference ∩ 交 Intersection × 笛卡尔积 Cartesian Product 比较运算符运算符含义 > 大于 ≥ 大于等于 < 小于 ≤ 小于等于 = 等于 ≠ 不等于专门的关系运算符运算符含义英文 σ

2020-07-29 17:23:02 4942 1

原创使用clickhouse遇到的问题

连接ck服务器提示 ' ClickHouse exception, code: 210'原因：ck默认的配置不支持远程访问。解决方案：设置ClickHouse远程访问1.创建ClickHouse通用配置文件vi /etc/metrika.xml，在文件中添加如下内容：<yandex><networks><ip>::/0</ip></networks></yandex>2.打开ClickHouse用户配置文

2020-07-28 21:01:30 5184 1

原创网格搜索（GridSearch）及参数说明，实例演示，决策树超参数

网格搜索（GridSearch）及参数说明，实例演示一）GridSearchCV简介网格搜索（GridSearch）用于选取模型的最优超参数。获取最优超参数的方式可以绘制验证曲线，但是验证曲线只能每次获取一个最优超参数。如果多个超参数有很多排列组合的话，就可以使用网格搜索寻求最优超参数的组合。网格搜索针对超参数组合列表中的每一个组合，实例化给定的模型，做cv次交叉验证，将平均得分最高的超参数组合作为最佳的选择，返回模型对象。二）sklearn.model_selection.GridSearch

2020-07-28 14:10:19 2896

原创 Flink 1.11 SQL 使用攻略

7 月 6 日，Apache Flink 1.11 正式发布。从 3 月初进行功能规划到 7 月初正式发版，1.11 用将近 4 个月的时间重点优化了 Flink 的易用性问题，提升用户的生产使用体验。SQL 作为 Flink 中公认的核心模块之一，对推动 Flink 流批一体功能的完善至关重要。在 1.11 中，Flink SQL 也进行了大量的增强与完善，开发大功能 10 余项，不仅扩大了应用场景，还简化了流程，上手操作更简单。其中，值得注意的改动包括：默认 Plann...

2020-07-27 23:00:49 6714

原创 spark 读取 hdfs 数据分区规则

下文以读取 parquet 文件 / parquet hive table 为例：hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParquet 控制，默认为 true。如果设置为 true ，会使用 org.apache.spark.sql.execution.FileSourceScanExec ，否则会使用 org.apache.spark.sql.hive.execution.HiveTableScanExec。

2020-07-27 19:16:03 1038 2

动手学深度学习.pdf

基于SSH 教务管理系统

基于SSH的教务管理系统源码-简易版

c程序设计题解与上机指导

空空如也