- 博客(410)
- 资源 (3)
- 问答 (29)
- 收藏
- 关注
原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践
Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...
2022-06-16 18:00:04 700
原创 金融任务实例实时、离线跑批,Apache DolphinScheduler 在新网银行的三大应用场景与五大优化...
在新网银行,每天都有大量的任务实例产生,其中实时任务占据多数。为了更好地处理任务实例,新网银行在综合考虑之后,选择使用 Apache DolphinScheduler 来完成这项挑战。如今,新网银行多个项目已经完成了实时与准实时的跑批,指标管理系统的离线跑批,应用于离线数据开发和任务调度、准实时数据开发和任务调度,以及其他非 ETL 用户定义数据跑批三类场景中。为了更好地...
2022-05-16 18:00:22 1045
转载 DolphinScheduler 源码剖析之 Master 容错处理流程
点击上方蓝字关注ApacheDolphinSchedulerApacheDolphinScheduler(incubating),简称”DS”,中文名“海豚调度”(海豚聪明、人...
2020-11-18 21:00:00 1580
原创 【干货】Apache DolphinScheduler2.0升级3.0版本方案
1. 3.1.1 在测试sql任务时 ,同时启动上百sql 任务时,会出现sql 任务报错,导致大量任务无法正常运行,询问社区大佬,这是DS本身bug导致,虽然此现象在3.0.1也有出现,不过出现几率较小。原因:直接使用官网提供的升级脚本,无法正常运行,有较多问题,目前我们改造后,升级的数据库信息没问题,运行时数据信息有损坏,导致较多问题,所以为安全稳定,不直接使用官网提方案。此次升级已经验证可行性,已在生产环境验证上线,对已有的问题,并给出了合理的解决方便,故写此篇文章,供各位同学参考。
2024-03-26 09:29:16 687
原创 Apache DolphinScheduler 社区开启讲师招募,赶快加入吧!
随着Apache DolphinScheduler在全球范围内的快速发展,我们的用户群体和社区活动也在不断扩大。为了进一步丰富我们的社区内容,分享更多有价值的知识和经验,我们诚挚地邀请您加入我们,成为Apache DolphinScheduler社区的分享嘉宾。
2024-03-22 13:51:38 725
原创 【客户案例】白鲸开源WhaleStudio助力某证券公司打造全面数据解决方案:探析DataOps平台革新与应用
公司信息技术部、基金子公司、期货公司的数据开发人员基于DataOps平台,对公司经纪管理、投资银行、经营分析、托管等业务的数据需求进行开发、编排、调度,运维,平台应用于公司反洗钱、实时盈亏计算、监管报送、数据精算等多个核心应用,累计编排定义工作流超过3000个,上线任务数量接近16000个,交易日平均运行工作流实例数量超过5000个,日均任务执行任务数量超过20000个。租户级的资源,如数据源、环境、worker分组、租户内特殊定时、日历、牌等,用户自定义资源默认在租户内项目下可见、可以使用。
2024-03-22 13:47:42 963
原创 5分钟教你使用idea调试SeaTunnel自定义插件
在用Apache SeaTunnel研发组件过程中,发现社区关于本地调试SeaTunnel文章过于简单,很多情况没有说明,于是根据自己遇到问题总结这篇文档。,希望对大家有所帮助!使用的引擎为(不需要下载,SeaTunnel中有加载依赖),输入输出方式为:mysql to mysql。
2024-03-20 17:37:29 925
原创 【故障排查】10分钟解决Quartz重复调度的疑难杂症
我司使用Apache DolphinScheduler作为调度框架很久了,感兴趣的小伙伴可以看看这些干货文章:因为之前监控到会出现重复的调度的问题,所以此文记录排查重复调度问题的全过程,希望对社区其他的小伙伴能够起到抛砖引玉的作用!more注:本文使用的DolphinScheduler 3.1.1的版本。数据库使用的Tidb数据库,版本6.5.0,数据库的隔离级别是默认的RR(Read Committed)。Quartz版本为2.3.2,存储模式为JDBC。
2024-03-18 16:27:18 688
原创 为什么90%的人说医疗行业没有“大”数据?
Apache DolphinScheduler通过提供友好的用户界面和灵活的任务配置,显著降低了ETL任务的复杂度,使得数据抽取、转换和加载过程变得更加高效和简单。相比于自研或市面上的调度工具,能以其配置的简便性和强大的调度能力脱颖而出,提供一个更加简洁、高效和可靠的解决方案,也是医疗行业用户在数据处理和任务调度方面的需求。的开发者,还是医疗行业的IT专家和数据科学家,或者是Apache DolphinScheduler的现有和潜在用户,我都建议你来听听,从中获得全新的灵感。
2024-03-14 09:33:04 921
原创 证券公司如何应对大数据调度系统的高负载挑战
在金融行业,数据处理和任务调度是日常运营的重要组成部分。随着业务量的激增,日益增长的任务量和复杂的资源管理需求,要求该系统不仅要稳如磐石,还需灵活高效。本文将探讨某证券公司在应对这些挑战时所采用的策略,并着重介绍WhaleScheduler如何成为该案例解决方案的关键。
2024-03-14 09:09:15 745
原创 Apache DolphinScheduler-3.2.0集群部署教程
此处使用 MySQL 8.2.0版本,对应使用 JDBC 驱动为 mysql-connector-j-8.2.0.jar,将该驱动移动至 DolphinScheduler 的每个模块下的 libs 目录下。此时,已经将 Apache DolphinScheduler 安装到配置中指定的 /opt/soft/dolphinscheduler-3.2.0 目录下了。安装完成后,此时安装用到的 apache-dolphinscheduler-3.2.0-bin 文件就没用了。1.Master节点。
2024-03-11 15:16:31 1279 1
原创 奇富科技:大数据任务从诊断到自愈的实践之路
比如在这个诊断建议中,就说明“数据同步,目前只支持orc格式,请创建orc格式的hive表”,用户就明白可以将自己的Hive表格式转为orc格式解决这个异常。还有一种情况是,数据质量的弱校验规则,数据质量比对没有通过。还有“同步0记录”诊断规则,比如DataX将Hive表数据同步到Mysql时,如果同步了0条数据,虽然同步任务成功了,我们也会在工作流页面提示出来。其次,通过自助查询提交的Spark任务虽然还在运行中,没有失败,但是从Spark指标或者日志中已经发现了数据倾斜、数据膨胀、OOM等。
2024-03-06 16:22:56 563
原创 精细调度:Apache DolphinScheduler脚本深度解析
在现代数据处理和工作流管理中,Apache DolphinScheduler以其灵活性和强大的调度能力受到开发者的广泛欢迎。本文将逐步解析DolphinScheduler的关键脚本,希望能提供一个详尽的操作指南,帮助大家掌握安装、配置和操作的每一步。建立在./bin/env/下目录的配置文件建立好的前提。
2024-03-06 13:56:39 803
原创 【反哺开源】我们计划把“这个”商业化功能贡献给Apache DolphinScheduler
GitOps 是一种基于版本控制系统(通常是Git)的持续交付(Continuous Delivery)和基础设施管理的方法。它的核心理念是将整个系统的状态和配置存储在版本控制库中,通过Git的特性实现对系统的自动化管理和持续交付。Infrastructure as Code: GitOps强调使用代码来描述和管理基础设施。通过在版本控制库中存储基础设施代码,可以轻松地重建、复制和修改整个环境。声明性配置: 使用声明性配置,定义系统的期望状态而非详细的执行步骤。
2024-02-29 10:18:40 421
原创 如何用CDH+Apache DolphinScheduler开启Kerberos
如遇到某些命令没有权限或者无法通过TOKEN认证等问题,可以在kerberos服务主机上,创建对应的服务用户,进行keytab认证(参见上面用户认证流程),通过对应的服务认证,完成操作命令。在进行Apache DolphinScheduler安装时,主要在install_config.conf的配置,参见官网的配置流程即可,如果已经安装完成,可以修改common.properties的配置文件,这里主要说kerberos的配置部分,其他部分这里不赘述。资源存储选择的HDFS方式(这里其他配置参考官网)
2024-02-28 15:40:47 510
原创 白鲸开源科技与瀚高基础软件完成产品兼容性认证,开启数据管理新篇章
北京白鲸开源科技有限公司(以下简称“白鲸开源”)今日宣布,其旗舰产品WhaleStudio套件已与瀚高基础软件股份有限公司(以下简称“瀚高软件”)旗下的IvorySQL数据库管理系统V3.0完成深度兼容性认证。此次合作标志着两家领军企业在数据管理领域的紧密联合,为用户提供更加稳定、高效的数据处理解决方案。通过双方的紧密合作,WhaleStudio套件已经可以顺利安装、配置在IvorySQL数据库管理系统V3.0上,并在功能、性能和安全性方面通过了全面的测试。
2024-02-27 15:37:09 474
原创 2024年Apache DolphinScheduler RoadMap:引领开源调度系统的未来
非常欢迎大家来到Apache DolphinScheduler社区!随着开源技术在全球范围内的快速发展,社区的贡献者一直致力于构建一个强大而活跃的开源调度系统社区,为用户提供高效、可靠的任务调度和工作流管理解决方案。在过去的一段时间里,我们取得了一些重要的成就,但我们的愿景远未实现。为了更好地满足用户需求和推动项目的发展,我们在2024 新春伊始,制定了以下Roadmap,将在未来的版本中实现一系列激动人心的功能和改进。
2024-02-26 16:47:02 518
原创 Apache DolphinScheduler 3.2.1 版本发布:增强功能与安全性的全面升级
近期,Apache DolphinScheduler 社区激动地宣布 3.2.1 版本的发布。此次更新不仅着力解决了前一版本(3.2.0)中遗留的问题,而且引入了一系列的功能增强和优化措施。原先的问题主要源于部分重要代码在发布过程中未能成功合并(cherry-pick),加之这部分代码的合并过程较为复杂,因此,3.2.1 版本基于 2024年2月的dev分支代码,
2024-02-21 10:15:15 1188
原创 Apache DolphinScheduler数仓任务管理规范
得益于DS优秀的特性,在对数仓任务做运维和管理的时候,往往比较随意,或将所有任务节点写到一个工作流里,或将每个逻辑节点单独定义一个工作流, 缺少与数仓建模对应的任务管理规范;在构建调度任务的时候,用户容易将任务血缘和数据血缘混淆,希望在构建数仓生命周期的时候,通过任务血缘呈现出数据血缘的关系,这导致丢失了数据建模规范的分层管理。依据数据模型的表设计,想将DS的任务血缘当简单数据血缘使用需求的,可以在这一个工作流里将节点关联,数据清理和任务血缘不冲突,还可以顺便检测数据清理情况。
2024-02-19 15:50:25 753
原创 Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案
看到Apache DolphinScheduler社区群有很多用户反馈和讨论这块问题,针对不兼容的问题,不仅需要自己重新编译各一个新包,而且因为默认是使用zk-3.8的配置,所以会出现不兼容问题。我的位置是 D:\IdeaProjects\dolphinscheduler-3.2.0-release\dolphinscheduler-dist\target。我不知道配置文件的指定的位置,在IDEA开发工具中按ctrl+shift+f组合键, 在项目所有文件中搜索:zookeeper.version。
2024-02-18 12:11:19 1183
原创 【兼容认证】白鲸开源与银河麒麟高级服务器操作系统成功通过测试
北京白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,白鲸开源旗下产品 WhaleStudio V2.4 已成功通过与麒麟软件有限公司旗下的银河麒麟高级服务器操作系统产品的兼容性测试。麒麟软件有限公司的银河麒麟高级服务器操作系统(飞腾版)V10和银河麒麟高级服务器操作系统(鲲鹏版)V10。这一兼容认证确保了产品在性能、可靠性以及通用兼容性方面满足用户的关键性应用需求。
2024-02-01 10:16:18 498
原创 Apache DolphinScheduler 技术详解进阶(资源中心)
Apache DolphinScheduler 作为一个高效的任务调度和管理平台,通过其强大的内置参数和资源中心,为用户提供了灵活的时间调度和资源管理功能。此外,文章还详细阐述了如何在 DolphinScheduler 中引用依赖资源,例如使用资源中心管理文件和引用脚本,以 Shell 任务为例进行说明。该函数用于加减月份, 第一个入口参数为[yyyyMMdd],表示返回时间的格式 第二个入口参数为月份偏移量,表示加减多少个月。下面以 Shell 任务为例,演示如何引用资源中心的其他脚本。
2024-01-31 10:46:49 1039
原创 白鲸开源荣膺2023年度大数据产业最具投资价值企业奖项
北京时间2024年2月20日,中国领先的开源技术公司,白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,该公司获得了第六届 "年度金猿季大型主题策划活动" 颁发的 "2023大数据产业年度最具投资价值" 奖项。这一殊荣是对白鲸开源在大数据领域取得的卓越成就和突出贡献的认可。
2024-01-31 10:20:36 181
原创 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件
白鲸开源是一家专注于云原生DataOps领域的开源公司,由多名Apache Software Foundation Member、Apache DolphinScheduler和Apache SeaTunnel核心成员,以及全球范围内的数据领域专家创立。WhaleStudio 提供简洁的IDE编辑界面、强大的调度运行功能、调度血缘分析、运维监控以及企业级权限管控,已广泛应用于金融、电信、零售、互联网等多个行业的实际业务中。这一认证确保了两个产品之间的协同工作,为客户提供了更大的灵活性和选择权。
2024-01-24 11:09:53 387
原创 Apache DolphinScheduler社区新晋Committer:伏长海的开源之旅
大家好,我是伏长海,目前在珍岛集团担任大数据开发工程师职位!fuchanghai在算法平台后端的研究领域耕耘了三年,任务调度方面也有一年半的深入探索。闲暇时,平时喜欢睡懒觉,偶尔阅读书籍,以此充实自己的生活。
2024-01-22 17:21:34 570
原创 Apache DolphinScheduler:深入了解大数据调度工具
都会遍历所有的 worker,使其 current\_weight+weight,同时累加所有 worker 的 weight,计为 total\_weight,然后挑选 current\_weight 最大的作为本次执行任务的 worker,与此同时,将这台 worker 的 current\_weight-total\_weight。在这种架构下,集群中的管理者是被动态选择出来的,而不是预置的,并且集群在发生故障的时候,集群的节点会自发的举行"会议"来选举新的"管理者"去主持工作。
2024-01-22 17:11:24 573
原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏!
DolphinScheduler 的数据源中心(Data Source Center)是一个重要模块,主要用于集中管理和配置各种数据源的连接信息,为工作流和任务提供可靠的数据访问。数据质量任务是用于检查数据在集成、处理过程中的数据准确性。本版本的数据质量任务包括单表检查、单表自定义SQL检查、多表准确性以及两表值比对。官方说明:数据质量任务的运行环境为Spark2.4.0,其他版本尚未进行过验证,用户可自行验证。资源中心介绍。
2024-01-16 15:13:43 1227
原创 【金猿人物展】白鲸开源CEO郭炜:数据要素是未来数据“新能源”产业么?
纵观2023年中国数据行业发展与2024年数据产业趋势,就不得不提到2023年全年国家全年强调的数据要素的概念以及在2023年12月中国国家数据局等17个部门联合印发了《“数据要素×”三年行动计划(2024—2026年)》。从2020年-2023年政策发展脉络来看,政府整体思路上让数据要素成为企业的“新能源”,从而促进企业数智化发展活力,带动整体上下游整体产业升级。那么,数据要素与数据商融资真的可以促进中国数据相关产业像中国新能源造车新势力一样弯道超车,从而带动整个产业升级么?
2024-01-15 16:42:46 1112
原创 作业帮基于 DolphinScheduler 的数据开发平台实践
摘要随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。
2024-01-11 09:52:43 921
原创 海豚²来了丨DolphinDB 集成 DolphinScheduler,任务调度更轻松
本文选取了 20230201 上交所某股票 level 2 委托数据、快照数据、成交数据作为演示。以下是逐笔委托表在DolphinDB的结构。字段名字段含义数据类型(DolphinDB)ChannelNo通道代码INTApplSeqNum消息记录号LONGMDStreamID行情类别INTSecurityID证券代码SYMBOL证券代码源INTPrice委托价格DOUBLEOrderQty委托数量INTSide委托买卖方向SYMBOLTradeTime。
2024-01-08 17:13:26 820
原创 2023年终盘点:Apache SeaTunnel社区年度成就与展望
让我们携手共进,迎接2024年的新挑战和机遇!本文由白鲸开源科技提供发布支持!
2024-01-04 14:09:38 409
原创 Apache DolphinScheduler 社区 2023 年度工作报告
随着 2023 年的日历逐渐翻至最后一页,我们欣喜地回顾 Apache DolphinScheduler 社区在这一年中所取得的成就和进步。这一年,我们不仅在社区规模和技术发展上取得了显著成就,还发布了大量的技术文章和博客,进一步丰富了我们的知识库。
2024-01-03 17:26:22 397
原创 Apache DolphinScheduler 3.1.9 版本发布:提升系统的稳定性和性能
Apache DolphinScheduler 社区一直致力于打造一个稳定、高效、易于使用的工作流调度平台。我们期待您的持续关注和支持,共同推动 Apache DolphinScheduler 项目的发展!Apache DolphinScheduler 社区团队本文由白鲸开源科技提供发布支持!
2023-12-28 17:00:25 1533
原创 Apache DolphinScheduler 社区荣获 “2023年度优秀开源社区” 称号
Apache DolphinScheduler 社区将继续努力,不仅推动自身发展,也为整个开源界贡献力量。让我们一起,将 Apache DolphinScheduler 社区打造成为业界最权威、最典型、最具影响力的标杆。本文由白鲸开源科技提供发布支持!
2023-12-28 15:31:23 379
原创 被热议的“DataOps”是炒作?
DataOps是“数据操作”的缩写,它是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps的核心目标是提高数据分析的质量并缩短数据分析的周期,从而使企业能够更有效地利用数据。更多信息。
2023-12-22 09:03:08 57
原创 精通Quartz:Java中的时间管理与任务调度专家
Quartz的核心类和工作机制共同构成了一个高效且灵活的任务调度系统。尽管Quartz在设计上注重简洁和性能,但它的确切实现细节和架构选择显示出其在处理复杂任务调度场景中的强大能力。总的来说,Quartz作为Java中的时间管理与任务调度专家,提供了一套全面且高效的解决方案,以应对各种复杂的调度需求。其灵活的配置选项、与SpringBoot的无缝集成以及强大的集群支持,使其在Java应用中的任务调度领域独树一帜。
2023-12-20 10:43:27 64
原创 基于Apache SeaTunnel构建CDC数据同步管道
Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。
2023-12-19 12:05:25 91
原创 基于Apache SeaTunnel构建CDC数据同步管道
Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。
2023-12-19 12:04:16 128
原创 基于Apache SeaTunnel构建CDC数据同步管道
Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。
2023-12-19 12:02:04 82
原创 Apache DolphinScheduler 社区荣获 “2023 年度优秀开源技术团队“ 奖项
在开源社区日益繁荣的今天,我们非常荣幸地宣布:Apache DolphinScheduler 社区在 OSCHINA 平台的评选中荣获了“2023 年度优秀开源技术团队”奖项。这一奖项反映了我们社区在过去一年里在内容发表的深度与广度、活动运营影响力以及对开源文化的推广方面所做的突出贡献。
2023-12-14 18:17:54 288
Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx
2020-11-30
新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap
2020-11-24
开源时代
2021-03-31
Apache DolphinScheduler的全球交流工具是?
2021-01-28
DolphinScheduler Docker 镜像仓库在?
2021-01-26
工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?
2021-01-04
欢迎大家来社区提问哈,看看遇到了什么问题?
2020-12-31
想参与贡献,不知道该如何参与?
2020-12-21
上游依赖未成功,下游任务可以一直等待么?
2020-12-14
Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?
2020-12-08
哪里有关于 DolphinScheduler 的分享(PPT | 视频)?
2020-12-08
想参与社区贡献,不知如何参与?
2020-12-04
DolphinScheduler支持mysql 8 作为数据库么?
2020-12-03
DolphinScheduler单机部署有教程么?
2020-11-30
在哪里下载DolphinScheduler安装包呢?
2020-11-27
为什么要参与开源贡献?
2020-11-27
Python 任务如何设置 Python 的版本?
2020-11-26
DolphinScheduler流程定义有几种启动方式
2020-11-26
DolphinScheduler的用户案例
2020-11-25
DolphinScheduler 主要能力体现在哪些方面?
2020-11-25
DolphinScheduler有多少家公司在生产上使用?
2020-11-25
DolphinScheduler系统支持哪些邮箱?
2020-11-23
DolphinScheduler 服务介绍及建议运行内存
2020-11-23
遇到问题,如何得到社区的帮助
2020-11-23
DolphinScheduler项目的官网地址是?
2020-11-23
如何参与DolphinScheduler社区?
2020-11-23
如何在线试用Demo?
2020-11-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人