3 大数据研习社

尚未进行身份认证

暂无相关描述

等级
TA的排名 3w+

15案例 + 3实战 + 2项目,彻底讲透基于大数据体系构建数据仓库(有免费资料领取哦)

广告时间,一单身美女想找男朋友,要求如下:没房没关系,有5年以上基于大数据体系构建数据仓库经验,能管控数仓数据质量、数仓建模、元数据管理开源组件二次开发。做过用户增长、数据标签系统、数据中台,为人踏实可靠。有意愿男士请》》点击联系。闲言碎语不多讲,老铁们,直接上硬菜!一看老师背景就是实力派某金融公司大数据团队Leader、数据仓库架构师,曾供职于滴滴出行大数据&机...

2019-07-23 16:37:38

Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka

聊什么为了满足本系列读者的需求,在完成《ApacheFlink漫谈系列(14)-DataStreamConnectors》之前,我先介绍一下Kafka在ApacheFlink中的使用。所以本篇以一个简单的示例,向大家介绍在ApacheFlink中如何使用Kafka。Kafka简介ApacheKafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开...

2019-04-30 17:46:22

Apache Flink 漫谈系列(13) - Table API 概述

什么是TableAPI在《ApacheFlink漫谈系列(08)-SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和TableAPI是ApacheFlink中的同一层次的API抽象,如下图所示:ApacheFlink针对不同的用户场景提供了三层用户API,最下层ProcessFunctionAPI可以对State,Timer等复杂机制进行有效的控制,但用户使用...

2019-04-29 11:01:49

Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

说什么JOIN算子是数据处理的核心算子,前面我们在《ApacheFlink漫谈系列(09)-JOIN算子》介绍了UnBounded的双流JOIN,在《ApacheFlink漫谈系列(10)-JOINLATERAL》介绍了单流与UDTF的JOIN操作,在《ApacheFlink漫谈系列(11)-TemporalTableJOIN》又介绍了单流与版本表的JOIN,...

2019-04-29 10:59:35

Apache Flink 漫谈系列(11) - Temporal Table JOIN

什么是TemporalTable在《ApacheFlink漫谈系列-JOINLATERAL》中提到了TemporalTableJOIN,本篇就向大家详细介绍什么是TemporalTableJOIN。在ANSI-SQL2011中提出了Temporal的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。TemporalTable记录了...

2019-04-28 17:06:49

Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么上一篇《ApacheFlink漫谈系列-JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOINLATERAL。JOINLATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valuedFunciton。如下图所示:本篇会先介绍传统数据库对LATERALJOIN的支持,然后介...

2019-04-28 17:04:27

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么在《ApacheFlink漫谈系列-SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现ApacheFlink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面ApacheFlink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apa...

2019-04-26 17:00:07

别懵逼,用户画像其实是这么回事儿

大数据研习社这个社群运营至今,已有QQ群50+,微信群10+,微信/头条/博客多维度覆盖,触及影响的大数据人群20万+。好学君发现,在大数据领域,大家讨论比较多而且“来钱”最快的领域就是用户画像以及个性化推荐这块儿啦。但很多同学又觉得用户画像特别难“搞”,不好落地而且依赖的技术多资源多。好学君本人对用户画像一直处于懵逼状态,偶尔想装X还心底发虚,直到我看到了下面这份资料。这是来自前阿里推荐算法...

2019-04-26 16:54:09

Apache Flink 漫谈系列(08) - SQL概览

SQL简述SQL是StructuredQueryLanguage的缩写,最初是由美国计算机科学家DonaldD.Chamberlin和RaymondF.Boyce在20世纪70年代早期从EarlyHistoryofSQL中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL:AStructuredEnglishQueryLanguage](结构化英语查询语...

2019-04-25 16:32:20

Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)

实际问题我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍ApacheFlink利用持续查询来对流计算结果进行持续输出的实现原理。数据管理在介绍持续查询之前,我们先看看ApacheFlink对数据的管理和传统数据库对数据管理的区别,以MySQL为例,如下图:如上图所示传统数据库...

2019-04-25 16:28:01

Apache Flink 漫谈系列(06) - 流表对偶(duality)性

实际问题很多大数据计算产品,都对用户提供了SQLAPI,比如Hive,Spark,Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《ApacheFlink漫谈系列-概述》我们介绍过Spark是MicroBatching模式),提供SQLAPI很容易被人理解,但是Flink是纯流(NativeS...

2019-04-24 16:04:33

Apache Flink 漫谈系列(05) - Fault Tolerance

实际问题在流计算场景中,数据会源源不断的流入ApacheFlink系统,每条数据进入ApacheFlink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,ApacheFlink会如何处理呢?在《ApacheFlink漫谈系列-State》一篇中我们介绍了ApacheFlink会利用State记录计算的状态,在Failover时候Task会根据...

2019-04-24 15:54:38

Apache Flink 漫谈系列(04) - State

实际问题在流计算场景中,数据会源源不断的流入ApacheFlink系统,每条数据进入ApacheFlink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,ApacheFlink是基于上一次的计算结果进行增量计算的。那么问题来了:"上一次的计算结果保存在哪里,...

2019-04-23 15:32:42

Apache Flink 漫谈系列(03) - Watermark

实际问题(乱序)在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗...

2019-04-23 15:19:17

Apache Flink 漫谈系列(02) - 概述

ApacheFlink的命脉"命脉"即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊ApacheFlink的历史,不聊ApacheFlink的架构,不聊ApacheFlink的功能特性,我们用一句话聊聊什么是ApacheFlink的命脉?我的答案是:ApacheFlink是以"批是流的特例"的认知进行系统设计的。唯快不破我们经常听说"天下武功,唯快不...

2019-04-22 15:09:34

Apache Flink 漫谈系列(01) - 序

ApacheFlink漫谈系列会分享什么呢?本系列分享的核心内容会围绕ApacheFlink的核心特征以及阿里巴巴对ApacheFlink功能的丰富和性能、架构的优化进行深入剖析,从系统架构到具体每个算子的语义都会向读者进行细致分享,并且以图文和具体示例的方式讲解具体算子的实现原理。Why闪速成为Apache顶级项目ApacheFlink是时代的产物,是当前纯流式计算引擎的...

2019-04-22 14:50:21

月薪3万+的大数据人都在疯学Flink,为什么?

身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark。18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉。何以至此,Flink是个什么鬼?ApacheFlink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进...

2019-04-04 11:57:37

Flink学习笔记:Connectors之kafka

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91.Kafka-connector概述及FlinkKafkaConsumer(kafkasource)1.1回顾kafka1.最初由Linkedin开发的分布式消息中间件...

2019-03-25 14:53:30

Flink随堂笔记:Connectors概述

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl91.各种Connector1.1Connector是什么鬼Connectors是数据进出Flink的一套接口和实现,可以实现Flink与各种存储、系统的连接注意:数据进出Fli...

2019-03-25 14:43:47

Flink学习笔记:异步I/O访问外部数据

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:Flink大数据项目实战:http://t.cn/ExrHPl9AysncI/O1.1AysncI/O是啥?AsyncI/O是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的:是为了解决与外部系统交互时...

2019-03-22 16:14:11

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。