- 博客(308)
- 资源 (1)
- 收藏
- 关注
原创 选择适合你的开源 OLAP 引擎
摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。PS: 文章较长,建议收藏慢慢看。说起 OLAP 要追溯到 1993 年。在1993年,E.F.Codd 及其同事制定了下面这12条规则来定义 了 OLAP准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力准则准则4 稳定的报表能力
2020-05-13 21:32:38 651
原创 datax同步数据翻倍,.hive-staging 导致的问题分析
同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现,翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。
2023-09-22 15:44:23 401
原创 海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码
DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二次迭代优化,二开的过程,本地调试是不可以或缺的。今天记录一下本地开发环境搭建的过程,适用于 2.x 和 3.x 版本,这两个大版本区别不大,下面会进行说明。
2023-06-30 18:20:22 2200
原创 clickhouse 获取几天前的日期
ClickHouse 版本: 20.7.2.30获取 N 天前获取当前时间的N天前select subtractDays(now(),n)获取指定日期的N天前select subtractDays(toDateTime('2020-11-29 09:15:00'),n)
2021-11-19 11:56:47 5250
原创 大数据技术周报第 009 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。这是第 9 期分享,记录过去一周关于大数据的见闻,保证信息的质量和溯源。文章目录技术一瞥文章资源订阅技术一瞥1.Kafka 最近发布3.0官网Blog:https://blogs.apache.org/kafka/I’m pleased to announce the release of Apache Kafka 3.0 on behalf of the Apache Kafka® community. Apache Kafka
2021-09-27 14:14:08 284
原创 大数据每周分享第 008 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报008.png](https://img-blog.csdnimg.cn/img_convert/7603c51d5ff0df324823516ea187b4bb.png#clientId=ua66e4b71-bc36-4&from=ui&id=u7b90c074&margin=[object Object]&name=大数据技术周报008.png&originHeight=797&o
2021-09-18 18:04:21 235
原创 大数据技术周报第 007 期
这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报007.png](https://img-blog.csdnimg.cn/img_convert/810685146b05b4b46406f36bdcfc2333.png#clientId=uaa781e38-bed2-4&from=ui&id=u15e267f1&margin=[object Object]&name=大数据技术周报007.png&originHeight=797&or
2021-09-18 18:04:03 445
原创 大数据技术周报第 006 期
这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报006.png](https://img-blog.csdnimg.cn/img_convert/7a907cb35daa0f72df67eb07400e17e4.png#clientId=ued222bfa-165a-4&from=ui&id=uf68efd22&margin=[object Object]&name=大数据技术周报006.png&originHeight=797&or
2021-09-18 18:02:38 254
原创 大数据技术周报第 005 期
这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报005.png](https://img-blog.csdnimg.cn/img_convert/3c4ae337c5346710a3b7ea3178d7a9c8.png#clientId=u7d0b9d33-c794-4&from=ui&id=u77111841&margin=[object Object]&name=大数据技术周报005.png&originHeight=797&or
2021-09-18 18:02:19 130
原创 大数据技术周报第 004 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报004.png](https://img-blog.csdnimg.cn/img_convert/2d3b6b0083c6ee1df4a0585b0cbddbff.png#clientId=u32c52070-0677-4&from=ui&id=u7f5e5d21&margin=[object Object]&name=大数据技术周报004.png&originHeight=797&o
2021-09-18 18:00:41 163
原创 大数据技术周报第 003 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报003.png](https://img-blog.csdnimg.cn/img_convert/9ef503957983ff8e385f23e27754c98f.png#clientId=u0c6597f6-6c1c-4&from=ui&id=u9090de37&margin=[object Object]&name=大数据技术周报003.png&originHeight=797&o
2021-09-18 18:00:20 196
原创 大数据技术周报第 002 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报002.png](https://img-blog.csdnimg.cn/img_convert/c91b8b61eb37bc81551852450222cfde.png#clientId=uddc054e5-e75b-4&from=ui&id=ue16a1526&margin=[object Object]&name=大数据技术周报002.png&originHeight=797&o
2021-09-18 17:57:19 244
原创 大数据技术周报第 001 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报001.png](https://img-blog.csdnimg.cn/img_convert/ede42c9f6f21c913beab96285740cc67.png#clientId=u5db08379-ecd8-4&from=ui&id=u190e76c9&margin=[object Object]&name=大数据技术周报001.png&originHeight=797&o
2021-09-18 17:56:53 538
原创 万字长文带你从零开始认识机器学习
版权说明:本文系转载。本文中的所有文字,图片,代码的版权都是属于作者和博客园共同所有。在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:图1 机器学习界的执牛耳者与互联网界的大鳄的联姻这幅图上上的三人是.
2021-09-02 10:18:07 397
原创 给人工智能新手,两份不同阶段的资料
这篇文章,给大家推荐两个不错的网站。即使现在用不到,可以先收藏了。01 偏理论访问:www.coursera.org 免费AI 非技术通俗讲解 等级:初级https://www.coursera.org/learn/ai-for-everyone/机器学习理论基础https://www.coursera.org/learn/machine-learning神经网络与深度学习https://www.coursera.org/learn/neural-networks-deep-learnin.
2021-09-02 10:05:10 81
原创 大数据开发工程师到底是干嘛的?日常做什么呢?
最近后台收到很多私信,内容大都差不多,总结下来就是:目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位?笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。希望可以帮到你。什么是大数据?大数据的几个明显的特点:海量的数据数据多样性数据增速快以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数
2021-07-05 22:49:58 8935 8
原创 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!
翻译 | 付典 Review |徐榜江、朱翥 Apache Flink 社区很荣幸地...
2020-12-29 21:30:00 257
原创 实战:Flink 1.12 维表 Join Hive 最新分区功能体验
我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求,其中 Hive 表是分区表,业务上需要关联上 Hive 最新分区的数据...
2020-12-29 21:30:00 343
原创 年度总结 | Flink 年度最佳学习路线总结
2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路线。以下资料来源都有标注,基本都属于一手资料,在信息碎片横行的时代,坚持独立思考、系统学习。预祝大家学习愉快。最近更新2020年12月13日-15日,Flink Forward Asia 2020 在线峰会圆满落幕。为期三天的会议中,Flink 社区以超多干货,丰富内容打造了一场大数据与 Apache Flink 的全技术盛宴。了解 Flink
2020-12-29 21:23:29 406
原创 年度总结 | 2020 Flink 学习路线总结
2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路...
2020-12-27 11:21:00 272
原创 一文搞定 Hive 表分隔符
Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,
2020-11-23 15:41:57 3851
原创 2020年 Google 开发者大会可以预约了
Google 开发者大会 (Google Developer Summit) 是谷歌面向开发者展示最新产品和平台的年度盛会。 2020 G...
2020-11-14 13:05:00 255 1
原创 Flink SQL 1.11 新功能与最佳实践
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00 637
原创 如何基于 Flink 生成在线机器学习的样本?
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00 202
原创 Flink SQL CDC 上线!我们总结了 13 条生产实践经验
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00 858 2
原创 Zeppelin SDK :Flink 平台建设的基石
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-03 12:40:00 211
原创 数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验
行业解决方案、产品招募中!想赚钱就来传!>>> ...
2020-08-05 20:24:00 435 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人