自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Focus on Lakehouse

公众号@大数据技术架构

  • 博客(286)
  • 收藏
  • 关注

原创 干货 | Kafka 内核知识梳理,附思维导图

前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识。文...

2020-05-24 13:57:49 663

原创 HBase实践 | HBase内核优化与吞吐能力建设

前言公司的hbase集群早先是基于社区1.2.4版本进行搭建的,在时延表现方面起初并不十分理想,受GC尖刺的影响非常严重,针对P99响应时延也只能给业务提供不高于100毫秒的SLA承诺,...

2020-04-17 08:02:59 1347

转载 AI浪潮来袭,5门精选课程带你入门AI大模型

OpenAI 创始人 Sam Altman 说,“通用人工智能(AGI)已经离我们不远了”。当下,人工智能成了新时代的必修课,每个人都需要一些 AI 知识来升级自己,才能与时代同行。为了帮助大家更好地掌握AI技术,今天特别推荐几门全面、系统的AI课程。AI大模型之美这门课程就是要把新一代 AI 应用开发的方法和机会分享给你。无论你是产品经理还是工程师,乃至于 IT 行业之外的业务人员,都值得...

2024-02-22 18:34:08 93

转载 拜年啦|平安喜樂,龍行龘運

2024-02-10 07:41:31 47

转载 《锋哥聊数仓》技术分享群开通了~

为了服务好锋哥聊数仓的分析,从昨天开始逐渐拉了一些粉丝群,已经三个群,基本都是很快达到200的上线,不能扫码进群,为了让更多朋友大家一起交流数仓技术,在拉三个社群,大家自行扫码进入,已经加入的人员请不要在扫码了,给其他人扫码进...

2024-01-29 18:11:43 84

转载 Apache Paimon 在网易传媒推荐场景实践

背景网易新闻是中国领先的全媒体新闻门户网站,提供全面、及时、权威的新闻资讯服务。推荐产品团队主要致力于网易新闻 APP 端内资讯的个性化推荐,加强用户粘性,提高用户的阅读体验。随着业务的持续发展,原有的推荐数仓架构逐渐满足不了业务对数据的多样性需求,数据处理流程也愈发复杂。近期,我们与杭研同事一起深入调研了数据湖方案 Apache Paimon,以此为底座,旨在解决传统数仓在数据更新能力上存在的痛...

2023-11-29 09:00:15 224

转载 Flink CDC结合Doris flink connector实现Mysql数据实时入Apache Doris

本文通过实例来演示怎么通过Flink CDC 结合Doris的Flink Connector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中。1.什么是CDCCDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GROU...

2023-11-28 17:27:00 1065

转载 再发故障!阿里云:道歉

2023年11月27日,阿里云部分地域云数据库控制台访问异常。开始时间 (GMT+8) :2023-11-27 09:16结束时间 (GMT+8) :2023-11-27 10:58受影响产品:云原生数据仓库 AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库 Redis 版、云原生关系型数据库 PolarDB、云数据库专属集群、云数据库 MySQL 版、云...

2023-11-28 09:06:11 113

转载 【云栖2023】王峰:开源大数据平台3.0技术解读

本文根据2023云栖大会演讲实录整理而成,演讲信息如下:演讲人:王峰 | 阿里云研究员,阿里云计算平台事业部开源大数据平台负责人演讲主题:开源大数据平台3.0技术解读实时化与Serverless是开源大数据3.0时代的必然选择阿里云开源大数据平台孵化于阿里巴巴集团内部业务。早在2009年,我们就开始采用开源 Hadoop 技术体系来服务阿里内部快速发展的电商业务。在阿里巴巴内部这套 Hadoop ...

2023-11-14 13:01:56 111

转载 再谈数据架构, 探讨 Data 和 AI 结合的新产品形态

编辑| 张俊宝深度学习诞生 10 年,LLM (大语言模型技术)终于带来 AI 平民化。ChatGPT 爆火后,AIGC 浪潮席卷全球。AI 作画、AI 写歌、AI 生成视频…… 全球大厂纷纷推出 AIGC 应用,让 AI 变得“触手可及”。从技术角度看,基于海量数据构建的大模型能够进行相对独立的推理和判断,让企业看到了 AI 与 Data 的技术融合已经成为当下重要的发展趋势之一。如今,A...

2023-07-08 08:16:30 682

转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...

亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...

2023-07-04 18:28:45 388

转载 《数据库发展研究报告(2023年)》正式发布,文末附下载方式

7月4日,2023可信数据库发展大会(以下称“大会”)主论坛在北京国际会议中心成功召开。大会以“自主创新 引领”为主题,邀请行业内近百位演讲专家围绕数据库技术、产业和生态热点进行研讨,与一同到会的数千开发者及关注数据库发展的行业人员共同论道我国数据库自立自强之路,探索新形势下我国数据库产业可持续、高质量发展方法。会上,中国通信标准化协会互联网与应用技术工作委员会主席何宝宏代表中国通信标准化协会正...

2023-07-04 18:28:45 536

转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...

亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...

2023-07-04 18:28:45 30

转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...

亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...

2023-07-04 18:28:45 29

转载 《Hadoop HDFS深度剖析与实践》新书推荐与回馈新书活动 | 回馈赠书

作为一款经典的Master-Slave架构的分布式存储系统,HDFS自诞生至今,已然成为事实上的大数据标准和业内不可忽视的存储基础设施。单集群能够维护并管理PB甚至EB级的数据规模存储,不少企业的在线集群规模达到万台,国内外比较有代表性的公司包括Uber、京东、美团、快手、B站等都选择HDFS,为企业和业务生产带来巨大收益。01HDFS核心优势HDFS能够长期经久不衰,有其核心竞争优势。这里简要总...

2023-06-30 17:04:22 424 1

转载 阿里巴巴以全新姿态奔向未来

今天,阿里巴巴控股集团董事会主席兼CEO张勇通过全员信宣布,阿里的自我变革正顺利平稳推进,1+6+N的全新业务集群基本成型,各业务集团董事会已开始运行,多个业务的上市和融资计划也已开展,控股集团将主要承担创新孵化大本营角色,整个阿里巴巴正以全新姿态奔向未来。张勇同时宣布,阿里云智能集团完全分拆已经启动,正处于向上发展的最关键时期,必须全身心投入。同时为了适应未来发展规范和要求,其个人不宜再同时担任...

2023-06-20 17:11:14 85

转载 从 Hadoop 到 Snowflake,2023年数据平台路在何方?

随着大数据技术的融合发展,企业对数据平台的要求越发多元:不仅要能够整合集成、存储、管理海量的多源异构数据,还要能够提供连通业务的多样化数据服务能力,并且能够支持不同应用、不同场景中的落地。从 Hadoop 到 Snowflake ,数据平台的发展呈现出清晰的路径,在与云的结合上也探索了丰富的技术实践。那么,数据平台的下一次“潮涌”何时到来?中国版 Snowflake 何时出现?为了探讨问题的答案,...

2023-06-20 17:11:14 214

转载 R.I.P. 瑾以此文纪念陈皓(左耳朵耗子)

采访嘉宾 | 陈皓,MegaEase 创始人“你要问我现在是不是最好的时代,我觉得从 1998 年我职业生涯开启到现在,我经历过的这 20 多年,就是最好的时代。未来是不是比这更好我不知道。但我没有生不逢时,我有幸生在这样一个黄金年代,经历过了许多最刺激的事情”。今年 45 岁(2021年)的陈皓(网名:左耳朵耗子),是一位骨灰级的老程序员。早先,他“叛逆”地从老家给他分了房子的国企离职,毅然决定...

2023-05-15 19:25:28 183

转载 Kafka 高可靠高性能原理探究(万字干货)

引言在探究 Kafka 核心知识之前,我们先思考一个问题:什么场景会促使我们使用 .Kafka?说到这里,我们头脑中或多或少会蹦出异步解耦和削峰填谷等字样,是的,这就是 Kafka 最重要的落地场景。异步解耦:同步调用转换成异步消息通知,实现生产者和消费者的解耦。想象一个场景,在商品交易时,在订单创建完成之后,需要触发一系列其他的操作,比如进行用户订单数据的统计、给用户发送短信、给用户发送邮件等...

2023-04-22 08:16:09 283

转载 谷歌BigQuery创始成员谈论大数据时代已经结束

作者 | JORDAN TIGANI译者 | 红泥策划 | 冬梅随着云计算时代的发展,大数据实际已经不复存在。在真实业务中,我们对大数据更多的是存储而非真实使用,大量数据现在已经变成了一种负债,我们在选择保存或者删除数据时,需要充分考虑可获得价值及各种成本因素。十多年来,人们一直很难从数据中获得有价值的参考信息,而这被归咎于数据规模。“对于你的小系统而言,你的数据量太庞大了。”而解决方案往往是购买...

2023-04-19 17:35:44 147

转载 数据湖存储的安全写入之道

背景数据湖的兴起,给数据存储带来了一轮新的革命。越来越多的公司选择将存储切换到云上对象存储。因为云上对象存储往往意味着大容量、低成本、易扩容。说到对象存储,必然涉及到 S3 协议,S3 协议已经事实上成为对象存储的通用协议。不过,市面上不少数据平台公司,也会选择基于 S3 协议又兼顾 Hadoop 使用习惯的 S3A Connector,比如 Databricks 在对象存储上提供的表数据结构 D...

2023-03-15 09:17:44 513

转载 CDC | 基于数据湖格式构建流式增量数仓

摘要:本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档,2022年初我们在阿里云EMR 内部 ...

2023-02-24 12:39:42 334

转载 网易经验规整:ClickHouse开发与使用规范大全

导读:ClickHouse作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse是俄罗斯的搜索公司Yandex开源的MPP架构的分析引擎,号称比事务数据库快100...

2023-02-15 18:05:26 480

原创 Scrapy源码解读

Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。TwistedTwisted 是一个事件驱动的网络引擎。Twisted 是用于生成可扩展的跨平台网络服务器...

2023-02-11 11:53:49 689

转载 诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

客户简介诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。在公司数字化转型的背景下,业务增长带来了...

2022-10-31 13:00:30 220

转载 助力 Shopee 重构系统发布 ETL 功能,SeaTunnel 在电商巨头的实践经验

01我们面临的问题1.1现状Shopee 是一家电子商务公司,我们为世界各地的人们提供服务,每天都会产生数 TB 级的数据。Shopee 一直致力于构建大数据平台,为业务提供数据支持。我们提供了涵盖数据开发整个生命周期的多种工具。用户可以在 Datahub 中管理数据获取作业,还可以浏览数据,并用从 DataStudio 中获取的数据来创建不标准的数据管道。在 Datahub 或 DataStud...

2022-10-25 09:18:37 910

转载 Debezium 2.0.0.Final Released

今天,我非常高兴地宣布Debezium 2.0.0.Final正式发布!自2019年12月发布1.0版本以来,社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里,我们扩展了Debezium的产品组合,包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下,Debezium成为CDC领域事实上的领...

2022-10-18 16:52:14 802 1

转载 DevOps 已死?不重要!平台工程才是未来

编译 | Tina、平川开发者不想做运维,对 DevOps 来说不是好事情。最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的 DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道,“DevOps 已死,平台工程才是未来。”他的核心观点是:开发者不想跟基础设施打交道,企业在发展过程中又需要控制自...

2022-10-15 17:27:01 213

转载 基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根于 Hadoop 生态系统,解释了名称背后的含义:Hadoop Upserts Deletes an...

2022-10-10 08:55:54 603

转载 重磅!Apache Kafka 3.3 发布!

我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功能。有关更改的完整列表,请务必查看发行说明。几年来,Apache Kafka 社区一直在开发一种使用自我管理元数据运行的新方法。这种新的 KRaft 社区模式提高了可扩展性和弹性,同时实现了 Apache Kafka 的部署。另外还有在每个...

2022-10-10 08:55:54 584

转载 一文读懂,硬核 Apache DolphinScheduler3.0 源码解析

本文目录1 DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 远程日志访问2 DolphinScheduler源码分析2.1 工程模块介绍与配置文件2.1.1 工程模块介绍2.1.2配置文件2.2 Api主要任务操作接口2.3 Quate...

2022-09-18 15:55:10 705

转载 B站基于Clickhouse的下一代日志体系建设实践

本期作者束家麒基础架构部资深开发工程师凌涛基础架构部资深开发工程师01 背景介绍日志作为线上定位问题排障的重要手段,在可观测领域有着不可替代的作用。稳定性、成本、易用性、可扩展性都是日志系统需要追求的关键点。B站基于Elastic Stack的日志系统(Billions) 从2017建设以来, 已经服务了超过5年,目前规模超过500台机器,每日写入日志量超过700TB。ELK体系是业界最常用的日志...

2022-09-17 17:49:45 498

原创 Cube.js 试试这个新的数据分析开源工具

cube.JS1 cube.JS简介Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据,将其组织为一致的定义,并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作,包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Pr...

2022-09-11 16:41:52 2211

转载 Hudi社区 | Apache Hudi 0.12.0版本重磅发布!

Presto-Hudi 连接器从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相当。要了解有关连接器使用的更多信息,请查看prestodb 文档[1]。存档点以外的存档Hudi 支持保存点和恢复功能,这对备份和灾难恢复场景很有用。更多信息查看这里[2]。在 0.12.0 之前,给定表的归档在第一次保...

2022-08-23 08:46:09 1174

转载 Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

简介随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。目前发表的大多数比较文章似乎仅将这些项目评估为传统的仅附加工作负载的表/文件格式,而忽略了一些对现代数据湖平台至关重要的品质和特性,这些平台需要通过连续的表管理来支持更新繁重的工作负载。本文将更深入地介绍 Apache...

2022-08-23 08:46:09 593

转载 最佳实践|Apache Doris 在小米数据场景的应用实践与优化

导读:小米集团于 2019 年首次引入了 Apache Doris ,目前 Apache Doris 已经在小米内部数十个业务中得到广泛应用,并且在小米内部已经形成一套以 Apache Doris 为核心的数据生态。本篇文章转录自 Doris 社区线上 Meetup 主题演讲,旨在分享 Apache Doris 在小米数据场景的落地实践与优化实践。作者|小米 OLAP 引...

2022-08-13 08:06:33 641

转载 技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现

作者:范振(花名辰繁),阿里云计算平台-开源大数据-OLAP方向负责人,高级技术专家,StarRocks Community Champion随着阿里云EMR StarRocks 上线,在和用户交流的过程中,越来越多被问到 StarRocks 和 ClickHouse 的区别,其中 Join 能力最受客户关心。提到 Join,最为重要的便是 Optimizer 的实现,所...

2022-08-05 15:22:51 218

转载 StarRocks 2.3 新版本特性介绍

各位 StarRocks 的新老用户:StarRocks 近期发布了 2.3 版本,核心更新有:主键模型支持完整的 DELETE WHERE 语句,异步执行 CTAS,资源组的大查询防御,资源组的监控,JDBC 外表,数据目录 Catalog,集群部署与管理工具 StarGo 等。欢迎体验新版本功能,若喜欢我们的项目,大家可以在 GitHub 上 Star 一下✨ 体验地...

2022-07-29 12:57:37 885

转载 浅谈我所见识的数据治理项目

开篇一张图与正文不一定有关图片来源于朋友圈01写在前面熟悉笔者的朋友可能知道,笔者之前做的并非纯数据相关工作(产品或项目),笔者属于半路出家的数据人,之前也几乎没有直接接触过数据仓库、数据中台、数据平台等产品或项目,与数据库是一直打交道。要说真正与数据结缘,那得从16年8月起说起,当时因公司某些产品基于传统关系型数据库与一些开源数据仓库产品(如InfoBright)跑...

2022-07-28 09:00:33 435

转载 分布式数据同步工具之DataX-Web部署使用

背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们的dataworks是不能使用的,我们调研了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解一下搭建的dataxweb的流程。 一、环境准备 1)...

2022-07-24 20:00:43 6188

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除