Apache Spark中国社区-CSDN博客

转载阿里云 EMR Serverless Spark 版免费邀测中

随着大数据应用的广泛推广，企业对于数据处理的需求日益增长。为了进一步优化大数据开发流程，减少企业的运维成本，并提升数据处理的灵活性和效率，阿里云开源大数据平台 E-MapReduce （简称“EMR”）正式推出 EMR Serverless Spark 版，并已开启邀测！以强大的 Spark Native Engine 为基础，阿里云 EMR Serverless Spark 版旨在提供一个全托管...

2024-03-20 12:10:48 25

原创 Paimon 与 Spark 的集成（二）：查询优化

PaimonApache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 Flink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 Streaming Lakehouse 架构的普及和发展。Paimon x Spark‍‍Apache ...

2024-03-08 14:00:50 1068

原创阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse

01背景信息数据湖与传统的数据仓库相比，可以更灵活地处理各种类型的数据，并支持高度可扩展的存储，通常被用于大数据分析。为了支持准实时乃至实时的数据处理，数据湖需要能够快速地接收和存储数据（数据入湖），同时提供低延迟的查询性能以满足分析需求。Apache Paimon 和 Apache Hudi 作为数据湖存储格式，有着高吞吐的写入和低延迟的查询性能，是构建数据湖的常用组件。本文将在阿里云EMR[1...

2024-01-18 08:00:26 665

转载实战营 | 阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站

1月20日深圳阿里中心，阿里云 x StarRocks 邀你现场体验云上极速湖仓实战营，从 0-1 轻松上手 StarRocks 湖仓分析。StarRocks 自 3.0 大版本起，实现了从计算 OLAP 分析到统一 Lakehouse 的重大产品能力升级。通过存算分离架构，帮助用户降低存储成本、提升计算弹性；通过数据湖分析、物化视图等特性简化湖仓融合，实现极速统一湖仓分析。EMR Serverl...

2024-01-11 18:00:49 105

转载阿里云 E-MapReduce 全面开启 Serverless 时代

本文整理自阿里云智能 EMR 负责人李钰（花名：绝顶）在2023 云栖大会开源大数据专场的分享，演讲主题为阿里云 E-MapReduce 全面开启 Serverless 时代。EMR2.0平台阿里云正式发布云原生开源大数据平台 EMR 2.0 已历经一年时间，如今 EMR 2.0 全新平台在生产上已经全面落地，资源占比超过 60%。EMR 2.0 平台之所以在生产上这么快落地，源于其体验全面...

2023-12-20 18:00:16 114

转载阿里云开源大数据产品年度发布

本文整理自阿里云计算平台事业部开源大数据产品总监陈守元在2023 云栖大会开源大数据专场的分享，演讲主题为阿里云开源大数据产品年度发布。随着云计算的不断发展，未来数据处理和应用的趋势将围绕 Cloud Native、Severless 和 Data+AI 展开。其中，云原生架构已成为主流趋势，因为它可以提高数据处理和应用程序的可伸缩性和灵活性，支持大规模部署和更快的响应时间。同时，Serverl...

2023-12-19 18:00:35 88

转载 Apache Celeborn在中通的探索实践

随着公司业务体量不断发展，多个业务线依赖于大数据平台开展数据业务，大数据底层系统的稳定和高效成为了公司业务正常运转的基石。中通的大数据平台的基座依托于Hadoop，目前公司90%的ETL任务基于Spark-Sql引擎构建的，每天线上运行的 Spark任务有12w+，每天Shuffle产生的数据规模达6PB以上，同时单次Shuffle数据最大规模达数百TB以上，巨大的Shuffle数据量和复杂的计算...

2023-12-14 20:00:11 284

转载耳朵经济快速增长背后，喜马拉雅数据价值如何释放

▎本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的“数字先行者”共同探讨、碰撞，希望这些内容能让你有所启发。作者｜张申宇编辑｜盖虹达作为“耳朵经济”发展的领军者，喜马拉雅坐拥数以亿计的月活流量，却没有停止创新和思考，如何让这个庞大的用户群体有更好的体验，并在庞大的数据基础上进一步实现商业创新。数据显示，2021年时...

2023-11-20 18:00:30 75

转载米哈游大数据云原生实践

近年来，容器、微服务、Kubernetes 等各项云原生技术的日渐成熟，越来越多的公司开始选择拥抱云原生，并开始将大数据、AI等企业应用部署运行在云原生之上。以 Spark 为例，在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等，并且业界也涌现了不少 Spark on Kubernetes 的优秀实践。在刚刚结束的 2023 云栖大会上，米哈游数据平台组大数据技术专家杜安...

2023-11-10 13:46:06 180

原创 Paimon 与 Spark 的集成（一）

PaimonApache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 ApacheFlink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 Streaming Lakehouse 架构的普及和发展。Paimon x SparkApa...

2023-11-09 17:08:14 851

转载来云栖大会看 “ 云+StarRocks 3.0：极速统一的湖仓新范式 ”

2023 云栖大会来啦，众多技术主题活动与你同聚，门票免费领取中，数量有限，先到先得！其中，在「生态产品与伙伴赋能」主题中，StarRocks 技术指导委员会成员、镜舟科技 CTO张友东和阿里云高级技术专家范振将分享话题云+StarRocks 3.0：极速统一的湖仓新范式。本话题简介：StarRocks 3.0 开启了从 OLAP 到 Lakehouse 演进的新篇章。通过存算分离架构，帮助用户...

2023-10-24 18:03:38 77

转载限时领票｜走进 2023 · 云栖大会，看大咖对话开源

2023 云栖大会来啦，大数据与数据分析、开源技术等众多主题活动与你同聚，门票免费领取中，数量有限，先到先得！时间：11 月 1日地址：杭州·云栖小镇D4-1扫描议程底部二维码，或点击「阅读原文」领取门票～嘉宾及话题介绍话题一｜阿里云开源大数据平台 3.0 技术解读演讲嘉宾：王峰阿里云研究员，开源大数据平台负责人■ 话题简介自 2009 年起，经历了大数据上云的 1.0 时代，以数据湖和实时化...

2023-10-23 18:24:50 110

转载杭州 Meetup｜ Apache Kyuubi & Celeborn，助力 Spark 拥抱云原生

Apache Spark 作为如今大数据离线计算领域事实标准，被广泛应用。Apache Celeborn （Incubating）是大数据引擎统一中间数据服务，除了支持 Shuffle，未来还会支持 Spilled data，帮助计算节点解除对大容量本地盘的依赖。这是在阿里云上诞生的第一个 Apache 孵化项目。2022 年 10 月正式进入 Apache 孵化器，截至目前我们积累了1200+的...

2023-10-08 11:35:10 82

转载 Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

摘要：本文整理自网易数帆软件工程师潘成，在 ASF CommunityOverCode Asia 2023（北京）的分享。本篇内容主要为：1.Spark 云原生的收益和挑战2.如何基于 Apache Kyuubi 构建统一 Spark 任务网关3.如何基于 ApacheCeleborn (Incubating) 构建 ShuffleService4.网易在其他方面对 Spark on ...

2023-09-04 18:01:04 144

转载全链路数据湖开发治理解决方案2.0重磅升级

阿里云全链路数据湖开发治理解决方案能力持续升级，发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) ，一站式大数据数据开发治理平台DataWorks ，数据湖构建DLF，对象存储OSS等核心产品。解决方案已支持EMR新版数据湖DataLake集群（on ECS）、自定义集群（on ECS）、Spark集群（on ACK）三种形态，对接阿里云一站式大数据开发治理平台Data...

2023-08-24 10:30:02 68

转载 CommunityOverCode Asia 精彩回顾｜阿里云开源大数据 EMR 技术实践分享

2023 年 8 月 18 日，Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia（原 ApacheCon Asia）首次中国线下峰会在北京丽亭华苑酒店开幕。作为久负盛名的开源盛宴和开源界最具期待的大会之一，CommunityOverCode Asia 2023 聚集了来自各地的参与者，让大家都可以近距离享受这场 Apache 技术盛宴。阿里云研究员、开源大数...

2023-08-22 11:23:43 99

原创支持 Flink/Gluten/优雅升级...Celeborn0.3.0 介绍

Apache Celeborn（Incubating）[1][2]是阿里云开源的大数据计算引擎通用 Remote Shuffle Service，旨在提升 Shuffle 的性能/稳定性/弹性，目前已广泛运行在包含阿里在内的多家企业，每天服务着生产环境数十P的 Shuffle 数据，可稳定支撑单 Shuffle 超 600T 的大作业。Apache Celeborn（Incubating）是个...

2023-08-01 14:00:33 117

转载 Flink 遇见 Apache Celeborn：统一的数据 Shuffle 服务

我们非常高兴的宣布 Apache Celeborn（Inclubating）[1]正式支持 Flink，Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器，一直致力打造统一的中间数据服务，助力引擎全方位提升性能、稳定性和弹性，最新发布的 0.3.0 版本新增对 Flink 批作业 Shuffle 的支持，从此 Flink、Spark 可以同时使用统一的数据...

2023-07-19 12:11:57 122

转载 Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel一、简介Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Shuffle Service，旨在提升大数据计算引擎的性能/稳定性/弹性，目前已广泛应用于生产场景。Gluten 是 Intel 开源的引擎加速项目，旨在通过把 Spark Java Engine 替换为 Native Eng...

2023-07-10 09:39:47 1036

转载基于EMR Serverless StarRocks，极速全面多维分析21届世界杯

EMR Serverless StarRocks 是开源 StarRocks 在阿里云上的全托管服务，您可以通过 EMR Serverless StarRocks 灵活的创建和管理 StarRocks 实例以及数据。StarRocks 作为一款兼容 MySQL 协议的 OLAP 分析引擎，提供了极致的性能和丰富的 OLAP 场景模型，包括 OLAP 多维分析、数据湖分析、高并发查询以及实时数据分析...

2023-07-07 18:03:29 111

原创猿辅导基于 EMR StarRocks 的 OLAP 演进之路

摘要：猿辅导大数据平台团队负责人申阳分享了猿辅导基于 StarRocks 的 OLAP 演进之路。主要包括以下几大部分：数据需求产生OLAP 选型StarRocks 的优势业务场景和技术方案基础建设Tips：点击「阅读原文」查看原文视频1►数据需求产生猿辅导成立多年，早期是基于关系型的 MySQL 数据库来做数据的需求。随着业务的发展，多个服务在一个 DB 去做数据的汇总，以及一些微服务架构的产生...

2023-06-16 20:00:04 250

转载水滴筹基于阿里云 EMR StarRocks 实战分享

摘要：水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。本篇内容将会围绕以下五个方面展开：公司介绍StarRocks 概览场景实战最佳实践未来规划01公司介绍水滴创立于2016年，业务包括水滴筹、水滴保险商城等，于2021年5月7日上市。水滴以“用互联网科技助推广大人民群众有保可医，保障亿万家庭”为使命，致力于为用户提供健康保障解决方案。希望...

2023-05-17 18:00:04 194

转载阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日，第六届数字中国建设峰会在福建福州举办，阿里云首创并推动的智能数据湖解决方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技”，这也是历届峰会中首次有数据湖产品入选。本届数字中国峰会以“加快数字中国建设，推进中国式现代化”为主题，设置了“1+3+N”等系列活动。其中“十大硬核科技”奖项，聚焦高端芯片、操作系统、人工智能关键算法、传感器等技术领域，推动关键基础技术的创新应用，让人触摸科...

2023-05-10 16:00:37 64

转载阿里云EMR自定义日志投递与使用实践分享

1►引言：开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。EMR目前支持了日志管理，即日志客户SLS投递的功能，基于此功能，客户可以将需要的各种大数据组件日志收集到自身SLS中，做查询和分析。基...

2023-04-18 20:02:29 222

转载免费公测｜阿里云EMR Serverless StarRocks 公测正式开启！

让算力更普惠，让 AI 更普及！未来十年，阿里云将全面拥抱智能化时代。随着 Serverless 化逐渐成为全新的软件研发范式，阿里云正坚定推进核心产品全面 Serverless 化。其中，开源大数据产品阿里云E-MapReduce 率先推出 EMR Serverless StarRocks 服务。StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP 架构、可实时更新的列式存储引擎...

2023-04-14 18:00:58 132

转载阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-3月刊

E-MapReduce&DLF 产品新进展一、EMR&DLF 新平台功能发布1、EMR 发布 Spark Native EngineEMR 发布 Spark Native Engine 对外公测版（EMR-3.45.1和EMR-5.11.1），Spark3 服务可一键开启 Native Engine，支持 SparkSQL、DataFrame 和 PySpark 等应用程序，在标...

2023-04-07 18:02:21 204

转载阿里云EMR 2.0：定义下一代云原生智能数据湖

摘要：本文整理自阿里云高级技术专家/数据湖存储负责人郑锴(铁杰)；阿里云高级技术专家/开源大数据OLAP负责人范振(辰繁)在阿里云EMR2.0线上发布会的分享。本篇内容主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素：1. 全托管，湖存储；2. 一站式，湖管理；3. 多模态，湖计算阿里云云原生数据湖分析解决方案全面重磅升级，经中国信通院评测，它是目前国内唯一满分的数据湖方案。它有三个核心...

2023-03-31 20:01:03 244

原创通过云监控CloudMonitor实时捕获EMR集群的状态变化

1►引言：开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。云监控（简称“CloudMonitor”）是一项针对阿里云资源和互联网应用进行监控的服务，为云上用户提供开箱即用的企业级开放型一站式监控...

2023-03-30 20:00:02 106

原创数据湖存储的安全写入之道

背景数据湖的兴起，给数据存储带来了一轮新的革命。越来越多的公司选择将存储切换到云上对象存储。因为云上对象存储往往意味着大容量、低成本、易扩容。说到对象存储，必然涉及到 S3 协议，S3 协议已经事实上成为对象存储的通用协议。不过，市面上不少数据平台公司，也会选择基于 S3 协议又兼顾 Hadoop 使用习惯的 S3A Connector，比如 Databricks 在对象存储上提供的表数据结构 D...

2023-03-13 20:00:58 185

原创基于云监控自定义监控大盘对 EMR 自定义监控

前言开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的 Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi 等开源大数据计算和存储引擎。云监控（简称“CloudMonitor”）是一项针对阿里云资源和互联网应用进行监控的服务，为云上用户提供开箱即用的企业级开放型一站式监控解...

2023-03-08 20:00:00 132

转载阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

摘要：本文整理自阿里云 EMR 数据开发团队负责人孙一凡（Evans 忆梵），在 Spark&DS Meetup 的分享。本篇内容主要分为四个部分：1.我们是谁2.为什么选择 DolphinScheduler3.社区贡献4.商业化实践Tips：点击「阅读原文」查看原文视频一、我们是谁我们团队的日常工作主要包含以下两部分内容。1. 深度参与和贡献大数据开发开源项目。在过去两年的时间里，我们参...

2023-03-02 20:00:37 331

原创开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

前言在过去的20年时间，大数据技术蓬勃发展，从最开始大公司内部的秘密武器，到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据，能够更加全面清晰地洞察商业的本质。在商业节奏日益加快和发展越来越迅猛的今天，越来越多的企业意识到大数据分析的价值，并投入了大量的时间人力等资源。与此同时，从早期的简单报表，到搜广推（搜索广告推荐）的个性化需求，再到最近异常火爆的人机智能交互技术 ChatG...

2023-03-01 20:00:25 240

原创基于数据湖格式构建流式增量数仓—CDC

摘要：本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分：湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档，2022年初我们在阿里云EMR 内部 ...

2023-02-23 08:00:59 428

转载阿里云EMR2.0平台：让大数据更简单

摘要：本文整理自阿里云资深技术专家李钰(绝顶)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：1. EMR 平台概述2. EMR2.0 新平台核心能力3. 总结01EMR 平台概述EMR 平台是开源大数据的云原生运行环境，阿里云EMR 根据云原生的特点，在弹性伸缩、稳定性、智能化和研发效能四个方面进行了大量的功能优化：Elasticity 弹性伸缩，算力按需申请释放，突...

2023-02-21 20:00:11 302

转载 StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中

???? StarRocks 2.5 版本发布啦！核心功能有：Catalog 支持 Delta Lake、支持 Apache Hudi MOR 表、支持查询湖上 MAP及STRUCT 数据类型、提供 Local Cache；多表物化视图支持基于外表、物化视图创建，并支持查询改写；支持 Query Cache；支持 Lambda 表达式和高阶函数；主键模型表支持条件更新等。2.5 版本也将是 StarRo...

2023-02-14 20:00:41 492

转载阿里云EMR 2.0：重新定义新一代开源大数据平台

摘要：本文整理自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：1. 开源大数据的痛点及EMR产品历程2. EMR2.0 新特征3. 总结1►开源大数据的痛点及EMR产品历程1. 开源大数据的痛点如何提升性能，降低资源成本全面的性能优化需要大量的研发投入且门槛较高；大数据资源使用量大，广大用户都在不断探索降本方案。如何降低运维成本...

2023-02-08 20:00:19 641

转载 Spark+Celeborn：更快，更稳，更弹性

摘要：本文整理自阿里云 EMR Spark 团队的周克勇（一锤），在 Spark&DS Meetup 的分享。本篇内容主要分为三个部分：1.传统 Shuffle 的问题2.Apache Celeborn （Incubating）简介3.Celeborn 在性能、稳定性、弹性上的设计Tips：点击「阅读原文」查看原文视频一、传统Shuffle的问题Apache Spark 是广为流行的大数...

2023-02-06 20:00:19 1677

转载直播预约｜Apache Spark + DolphinScheduler Meetup 1月11日正式上线

洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler 将于 1 月 11 日在线上举办如果你也是接触开源“计算引擎+调度”的用户，想了解最新 Spark 迷人的特性，那这次的分享你一定不要错过了！本次活动特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇，通过他们的分享让...

2023-01-10 20:00:38 126

转载阿里云开源大数据平台EMR全面升级性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0，升级后的开源大数据平台在成本持平的情况下，扩缩容性能最高可提升6倍。据悉，阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验，通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级，预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态...

2023-01-09 18:03:04 1131

转载 Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

2010 年，我国进入移动互联网，数据规模成几何式增长。在大数据开源技术领域，以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代，大数据处理流程中的各个开源组件，也一起开启了狂飙突进的大数据时代，推动了整个行业开启了数字化变革之路。近年来，大数据行业的开发者都在感慨：技术迭代更新速度的太快了，今年还在流行，明年就可能被雪藏！其实我们非常清楚，技术永远是在“更新”或“替换”中得到发...

2023-01-05 11:16:45 210

空空如也

空空如也