自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员小陶的大数据分享

技术 | 认知 | 思维

  • 博客(308)
  • 资源 (1)
  • 收藏
  • 关注

原创 选择适合你的开源 OLAP 引擎

摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。PS: 文章较长,建议收藏慢慢看。说起 OLAP 要追溯到 1993 年。在1993年,E.F.Codd 及其同事制定了下面这12条规则来定义 了 OLAP准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力准则准则4 稳定的报表能力

2020-05-13 21:32:38 651

原创 datax同步数据翻倍,.hive-staging 导致的问题分析

同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现,翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。

2023-09-22 15:44:23 401

原创 海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码

DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二次迭代优化,二开的过程,本地调试是不可以或缺的。今天记录一下本地开发环境搭建的过程,适用于 2.x 和 3.x 版本,这两个大版本区别不大,下面会进行说明。

2023-06-30 18:20:22 2200

原创 clickhouse 获取几天前的日期

ClickHouse 版本: 20.7.2.30获取 N 天前获取当前时间的N天前select subtractDays(now(),n)获取指定日期的N天前select subtractDays(toDateTime('2020-11-29 09:15:00'),n)

2021-11-19 11:56:47 5250

原创 大数据技术周报第 009 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。这是第 9 期分享,记录过去一周关于大数据的见闻,保证信息的质量和溯源。文章目录技术一瞥文章资源订阅技术一瞥1.Kafka 最近发布3.0官网Blog:https://blogs.apache.org/kafka/I’m pleased to announce the release of Apache Kafka 3.0 on behalf of the Apache Kafka® community. Apache Kafka

2021-09-27 14:14:08 284

原创 大数据每周分享第 008 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报008.png](https://img-blog.csdnimg.cn/img_convert/7603c51d5ff0df324823516ea187b4bb.png#clientId=ua66e4b71-bc36-4&from=ui&id=u7b90c074&margin=[object Object]&name=大数据技术周报008.png&originHeight=797&o

2021-09-18 18:04:21 235

原创 大数据技术周报第 007 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报007.png](https://img-blog.csdnimg.cn/img_convert/810685146b05b4b46406f36bdcfc2333.png#clientId=uaa781e38-bed2-4&from=ui&id=u15e267f1&margin=[object Object]&name=大数据技术周报007.png&originHeight=797&or

2021-09-18 18:04:03 445

原创 大数据技术周报第 006 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报006.png](https://img-blog.csdnimg.cn/img_convert/7a907cb35daa0f72df67eb07400e17e4.png#clientId=ued222bfa-165a-4&from=ui&id=uf68efd22&margin=[object Object]&name=大数据技术周报006.png&originHeight=797&or

2021-09-18 18:02:38 254

原创 大数据技术周报第 005 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报005.png](https://img-blog.csdnimg.cn/img_convert/3c4ae337c5346710a3b7ea3178d7a9c8.png#clientId=u7d0b9d33-c794-4&from=ui&id=u77111841&margin=[object Object]&name=大数据技术周报005.png&originHeight=797&or

2021-09-18 18:02:19 130

原创 大数据技术周报第 004 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报004.png](https://img-blog.csdnimg.cn/img_convert/2d3b6b0083c6ee1df4a0585b0cbddbff.png#clientId=u32c52070-0677-4&from=ui&id=u7f5e5d21&margin=[object Object]&name=大数据技术周报004.png&originHeight=797&o

2021-09-18 18:00:41 163

原创 大数据技术周报第 003 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报003.png](https://img-blog.csdnimg.cn/img_convert/9ef503957983ff8e385f23e27754c98f.png#clientId=u0c6597f6-6c1c-4&from=ui&id=u9090de37&margin=[object Object]&name=大数据技术周报003.png&originHeight=797&o

2021-09-18 18:00:20 196

原创 大数据技术周报第 002 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报002.png](https://img-blog.csdnimg.cn/img_convert/c91b8b61eb37bc81551852450222cfde.png#clientId=uddc054e5-e75b-4&from=ui&id=ue16a1526&margin=[object Object]&name=大数据技术周报002.png&originHeight=797&o

2021-09-18 17:57:19 244

原创 大数据技术周报第 001 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报001.png](https://img-blog.csdnimg.cn/img_convert/ede42c9f6f21c913beab96285740cc67.png#clientId=u5db08379-ecd8-4&from=ui&id=u190e76c9&margin=[object Object]&name=大数据技术周报001.png&originHeight=797&o

2021-09-18 17:56:53 538

原创 万字长文带你从零开始认识机器学习

版权说明:本文系转载。本文中的所有文字,图片,代码的版权都是属于作者和博客园共同所有。在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:图1 机器学习界的执牛耳者与互联网界的大鳄的联姻这幅图上上的三人是.

2021-09-02 10:18:07 397

原创 给人工智能新手,两份不同阶段的资料

这篇文章,给大家推荐两个不错的网站。即使现在用不到,可以先收藏了。01 偏理论访问:www.coursera.org 免费AI 非技术通俗讲解 等级:初级https://www.coursera.org/learn/ai-for-everyone/机器学习理论基础https://www.coursera.org/learn/machine-learning神经网络与深度学习https://www.coursera.org/learn/neural-networks-deep-learnin.

2021-09-02 10:05:10 81

原创 大数据开发工程师到底是干嘛的?日常做什么呢?

最近后台收到很多私信,内容大都差不多,总结下来就是:目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位?笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。希望可以帮到你。什么是大数据?大数据的几个明显的特点:海量的数据数据多样性数据增速快以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数

2021-07-05 22:49:58 8935 8

原创 那些年我们踩过的一些坑之 ClickHouse

...

2021-01-16 14:12:00 3496

原创 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!

‍‍ 翻译 | 付典 Review |徐榜江、朱翥 Apache Flink 社区很荣幸地...

2020-12-29 21:30:00 257

原创 ​实战:Flink 1.12 维表 Join Hive 最新分区功能体验

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求,其中 Hive 表是分区表,业务上需要关联上 Hive 最新分区的数据...

2020-12-29 21:30:00 343

原创 年度总结 | Flink 年度最佳学习路线总结

2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路线。以下资料来源都有标注,基本都属于一手资料,在信息碎片横行的时代,坚持独立思考、系统学习。预祝大家学习愉快。最近更新2020年12月13日-15日,Flink Forward Asia 2020 在线峰会圆满落幕。为期三天的会议中,Flink 社区以超多干货,丰富内容打造了一场大数据与 Apache Flink 的全技术盛宴。了解 Flink

2020-12-29 21:23:29 406

原创 年度总结 | 2020 Flink 学习路线总结

2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路...

2020-12-27 11:21:00 272

原创 一文搞定 Hive 表分隔符

Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,

2020-11-23 15:41:57 3851

原创 2020年 Google 开发者大会可以预约了

Google 开发者大会 (Google Developer Summit) 是谷歌面向开发者展示最新产品和平台的年度盛会。 2020 G...

2020-11-14 13:05:00 255 1

原创 网易云音乐基于 Flink + Kafka 的实时数仓建设实践

背景 Flink + Kaf...

2020-10-30 11:14:00 243

原创 Flink JDBC Connector:Flink 与数据库集成最佳实践

整理:陈政羽(Flink 社区志愿者) ...

2020-10-30 11:14:00 6996

原创 码住!Flink Contributor 速成指南

...

2020-09-29 08:50:00 230

原创 Flink SQL 1.11 新功能与最佳实践

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 637

原创 如何基于 Flink 生成在线机器学习的样本?

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 202

原创 Flink SQL CDC 上线!我们总结了 13 条生产实践经验

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 858 2

原创 Zeppelin SDK :Flink 平台建设的基石

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-03 12:40:00 211

原创 数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-05 20:24:00 435 1

原创 单日课程超10万节!VIPKID 如何通过实时计算提升上课体验?

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-03 22:32:00 217

原创 Flink x Zeppelin ,Hive Streaming 实战解析

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-03 22:32:00 265

原创 数仓系列 | 深入解读 Flink 资源管理机制

精选30+云产品,助力企业轻松上云!>>> 整...

2020-07-26 16:09:00 139

原创 Hive 老当益庄 | 深度解读 Flink 1.11:流批一体 Hive 数仓

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-25 19:25:00 398

原创 数仓大法好!跨境电商 Shopee 的实时数仓之路

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-24 06:52:00 574 1

原创 首次揭秘!​春晚活动下快手实时链路保障实践

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-24 06:52:00 131

原创 PyFlink 在聚美优品的应用实践

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-24 06:52:00 203 1

原创 高能预警!Apache Flink Meetup · 上海站返场啦

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-23 17:44:00 188

原创 深入分析 Flink SQL 工作机制

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-23 17:44:00 343

hive 优化思维导图

hive 优化在面试以及工作中经常使用,我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除