• 博客(243)
  • 收藏
  • 关注

原创 突破深度模型线上耗时瓶颈,我们做了什么?

广告投放是深度模型应用较为普遍的场景之一,虽然深度模型能够提升业务效果,但往往也会付出更加高额的耗时开销。滴滴现今 DSP(Demand-Side Platform) 业务场景中,耗时问题已然成为限制模型发挥的魔咒,为了打破魔咒,我们探索了一套解决方案,可以让深度模型极大限度摆脱耗时困扰。原理概述背景DSP 先前的线上深度模型基于 CPU + Tensorflow Feature Column 的...

2024-04-16 20:02:48 560

原创 基于 StarRocks 的风控实时特征探索和实践

背景金融风控特征是在金融领域中用于评估和管理风险的关键指标。它们帮助金融机构识别潜在风险,降低损失,并采取措施规避风险。例如,用户最后一次授信提交时间就是一个重要的金融风控特征。金融风控实时特征场景是一个典型的大数据实时业务场景。为了应对这一挑战,风控团队采用了业界常用的 Lambda 架构和 Kappa 架构。对于7天内的实时特征,使用 Kappa 架构;而对于超过7天的特征,则采用 Lambd...

2024-03-28 19:58:37 1751

原创 小程序跨端组件库 Mpx-cube-ui 开源:助力高效业务开发与主题定制

Mpx-cube-ui 是一款基于 Mpx 小程序框架的移动端基础组件库,一份源码可以跨端输出所有小程序平台及 Web,同时具备良好的拓展能力和可定制化的能力来帮助你快速构建 Mpx 应用项目。Mpx-cube-ui 提供了灵活配置的主题定制能力,在组件设计开发阶段对表现层的结构和样式进行抽离,利用预编译器和 CSS 变量的能力,提供细粒度(颜色、字体、圆角、阴影等)的样式定制能力,你的项目可以按...

2024-03-19 19:58:10 876

原创 滴滴 Flink 指标系统的架构设计与实践

毫不夸张地说,Flink 指标是洞察 Flink 任务健康状况的关键工具,它们如同 Flink 任务的眼睛一般至关重要。简而言之,这些指标可以被理解为滴滴数据开发平台实时运维系统的数据图谱。在实时计算领域,Flink 指标扮演着举足轻重的角色,例如,实时任务的消费延迟和检查点失败的警报都是基于对 Flink 报告的指标进行监控而触发的;同时,许多实时任务智能诊断的关键决策点也是依 Flink 指标...

2024-03-12 19:59:01 7628 1

转载 科技“她”力量,有爱每一程

—福利时刻—评论区欢迎留下你的感想、你的故事、妇女节的祝福等等,我们将抽取10名同学各送一份科技有爱小礼物~

2024-03-08 16:50:09 73

原创 滴滴基于 Clickhouse 构建新一代日志存储系统

ClickHouse 是2016年开源的用于实时数据分析的一款高性能列式分布式数据库,支持向量化计算引擎、多核并行计算、高压缩比等功能,在分析型数据库中单表查询速度是最快的。2020年开始在滴滴内部大规模地推广和应用,服务网约车和日志检索等核心平台和业务。本文主要介绍滴滴日志检索场景从 ES 迁移到 CK 的技术探索。背景此前,滴滴日志主要存储于 ES 中。然而,ES 的分词、倒排和正排等功能导致...

2024-03-05 20:00:27 2031 1

转载 QPS 提升 10 倍!滴滴借助 StarRocks 物化视图实现低成本精确去重

滴滴于 2022 年引入了 StarRocks。经过一年多的努力,StarRocks 逐渐替代了原有技术栈,成为滴滴内部主要的 OLAP 引擎。截至 2023 年 12 月,滴滴已经成功建立了超过 40 个 StarRocks 集群,每日查询量在千万量级,拥有超过 3000 张数据表。这一强大的基础设施已广泛支持了滴滴公司几乎所有的业务线,包括网约车、单车、能源、货运等多个领域。本文会着重探讨 S...

2024-02-27 20:58:12 246

原创 开工有礼|400+页技术实践干货合集,助你开启新旅程

技术的世界,从来不是孤独的。在这个充满挑战与机遇的领域,没有闭关修炼多年的绝世高手, 只有无数怀着愚公移山精神的探索者,他们一步一个脚印,在未知的荒原上修桥补路,共同编织着技术的传奇。随着春节假期的结束,我们迎来了新的一年和新的开始。在这个充满希望和挑战的时刻,滴滴技术公众号特别推出《滴滴技术实践 2023 年度合集》,本册合集汇聚了过去一年我们所发表的技术实践内容。你将了解滴滴如何运用算法优化...

2024-02-22 20:01:32 615

转载 滴滴获2023中国计算机学会杰出贡献奖

1月27日,滴滴获2023年“CCF杰出贡献奖”。该奖项于2010年设立,授予对CCF有独特或重大贡献的企业或个人。2023年度同时荣获该奖项的还有CCF会士、南京大学周志华教授。CCF理事长梅宏院士、CCF奖励委员会主席廖湘科院士为滴滴颁奖。滴滴CTO张博代表滴滴上台领奖,并发表获奖感言。滴滴CTO张博(左二)与颁奖嘉宾合影张博表示,CCF是我国计算机领域非常具有凝聚力和影响力的平台,感谢学会对...

2024-01-30 21:00:39 737

原创 滴滴基于 Ray 的 XGBoost 大规模分布式训练实践

背景介绍作为机器学习模型的核心代表,XGBoost 在滴滴众多策略算法业务场景中发挥着至关重要的作用。因此,保障并持续提升 XGBoost 模型的离线训练及在线推理稳定性一直是机器学习平台的重点工作。同时,面对多样化的业务场景定制需求和数据规模从万到亿级的跨度,XGBoost 的训练效率和灵活性也成为我们需要重点关注的问题。由于平台历史架构原因,平台 XGBoost 模型训练仍是开源 XGBoos...

2024-01-25 20:57:47 1943

原创 滴滴开源小程序框架 Mpx 新特性:局部运行时能力增强

Mpx 是滴滴开源的一款增强型跨端小程序框架,自 2018 年立项开源以来如今已经进入第六个年头,在这六年间,Mpx 根植于业务,与业务共同成长,针对小程序业务开发中遇到的各类痛点问题提出了解决方案,并在滴滴内部建设了完善的小程序跨端开发生态。目前,Mpx 已经覆盖支持了滴滴内部全量小程序业务开发,成为了滴滴小程序开发的统一技术标准。本文主要探讨MPX局部运行时能力增强的方案设计。如需深入了解滴滴...

2024-01-25 20:57:47 1651

原创 想要快速打造专属问卷系统?来试试滴滴新开源的 XIAOJUSURVEY 项目!

XIAOJUSURVEY 源自滴滴内部问卷系统,已在集团内为各业务线提供在线调研服务,并为外部提供多种企业级调研场景解决方案。经过5年多的发展,它已发展成一个相对完整成熟的企业级平台。本次开源旨在为行业和社区提供一种轻量、安全的问卷系统解决方案,让调研更轻松。背景在调研领域,「创、投、收、分析、报告」是问卷系统核心的节点: 「创」阶段是问卷设计和创建的过程,根据调研需求设计问卷。 「投」阶段涉及到...

2024-01-18 20:58:59 1332

原创 滴滴小程序开发标准 Mpx 推出新版本,聚焦性能与包体积优化

Mpx 是滴滴开源的一款增强型跨端小程序框架,自 2018 年立项开源以来如今已经进入第六个年头,在这六年间,Mpx 根植于业务,与业务共同成长,针对小程序业务开发中遇到的各类痛点问题提出了解决方案,并在滴滴内部建设了完善的小程序跨端开发生态。目前,Mpx 已经覆盖支持了滴滴内部全量小程序业务开发,成为了滴滴小程序开发的统一技术标准。随着小程序业务的发展演进,性能和包体积的重要性愈发凸显,Mpx ...

2024-01-11 20:58:52 1747

原创 Apache Pulsar 为滴滴大数据运维带来了哪些收益?

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体。该系统源于 Yahoo,最初在 Yahoo 内部开发和部署,支持 Yahoo 应用服务平台 140 万个主题,日处理超过 1000 亿条消息。Pulsar 于 2017 年由 Yahoo 开源并捐赠给 Apache 软件基金会进行孵化,2018 年成为 Apach...

2024-01-09 20:59:52 6051 3

原创 Vim 一下日志文件,Java 进程没了?

一次端口告警,发现 java 进程被异常杀掉,而根因竟然是因为在问题机器上 vim 查看了 nginx 日志。下面我将从时间维度详细回顾这次排查,希望读者在遇到相似问题时有些许启发。时间线15:19 收到端口异常 odin 告警。状态:P1故障名称:应用端口8989指标:data-stream-openapi.port.8989主机:data-stream-openapi-nmg-sf-a9...

2023-11-23 20:58:30 2642

原创 线上问题排查实例分析|关于 Redis 内存泄漏

Redis 作为高性能的 key-value 内存型数据库,普遍使用在对性能要求较高的系统中,同时也是滴滴内部的内存使用大户。本文从 KV 团队对线上 Redis 内存泄漏定位的时间线维度,简要介绍 Linux 上内存泄漏的问题定位思路和工具。16:30 问题暴露业务反馈缩容后内存使用率90%告警,和预期不符合,key 只有1万个,使用大 key 诊断,没有超过512字节以上的大 key。16:4...

2023-11-21 21:00:00 2272

转载 解锁你的人工智能<MBTI>身份

假如你的身份是机器人,MBTI类型可能是.....······还有更多身份设定扫描下方二维码或前往2023广州国际汽车展览会20.1馆滴滴自动驾驶展台解锁! ...

2023-11-16 17:31:50 2145

原创 滴滴 Redis 异地多活的演进历程

为了更好的做好容灾保障,使业务能够应对机房级别的故障,滴滴的存储服务都在多机房进行部署。本文简要分析了 Redis 实现异地多活的几种思路,以及滴滴 Redis 异地多活架构演进过程中遇到的主要问题和解决方法,抛砖引玉,给小伙伴们一些参考。Redis 异地多活的主要思路业界实现 Redis 异地多活通常三种思路:主从架构、Proxy双写架构、数据层双向同步架构。主从架构主从架构的思路:各机房的 R...

2023-11-14 20:58:50 6174

原创 技术抽丝剥茧|为什么 Redis 内部使用不同编码?

某个周末的晚上突然收到一波耗时上升报警,仔细一看报警消息,原来是出现了慢查请求导致集群耗时大幅上升,此时业务同学也收到上游服务受影响报警。在处理问题过程中,运维同学发现 Redis 集群中只有部分实例出现 cpu 利用率上升,慢查日志也集中在这几个实例,而上游业务此时没有上线或是业务模型变化。因为是少量热 key 访问导致部分 Redis 实例负载高,执行限流对业务有损,执行扩容也无法达到快速止损...

2023-11-09 20:59:55 2369

原创 记一次 Android 周期性句柄泄漏的排查

滴滴国际化外卖 Android 商户端正常迭代版本过程中,新版本发布并且线上稳定一段时间后,突然触发线上 Crash 报警。第一次排查发现是在依赖的底层平台 so 库中崩溃,经过沟通了解到其之前也存在过崩溃问题,所以升级相关底层 so 版本。重新发版后短期没有出现 Crash 大面积上报情况,只有零星上报,但不久后又发生了第二次大面积 Crash 上报。具体信息如下图所示:在定位分析问题的过程中收...

2023-11-07 20:58:11 2562

原创 聊聊宿主机管理

2020年,机器上线需要在八个服务间反复横跳,而且全程手动操作。伴随滴滴业务规模上云,弹性云新增大量物理机,上线操作至少有百次,这时暴露了一个问题:如果按这个速度上线机器,需要大量人力投入到上机器中。因此,弹性云急需一个平台来管理宿主的上下线。从无到有DevOps,标准先行在 DevOps 实践中,标准化是非常重要的一环。弹性云的所有机器都是围绕服务树管理的。由于之前是由人工管理,弹性云机器在服务...

2023-10-31 20:58:42 8106

转载 不止1024

.

2023-10-25 20:06:50 2516 1

原创 既要稳也要省,容器资源该怎么分配?

在前两篇文章中,我们详细阐述了弹性云混部技术的实施过程和基于 Kubernetes 的调度策略。本文将深入探讨新分级容器保障体系的构建,以帮助读者更全面地理解滴滴弹性云的实践成果。众所周知,假期出行,热情高涨,需求增多也使得稳定性保障压力大。当各个服务流量激增时,资源负载压力将会显著提升。微观上,单台物理机的 CPU 利用率会大幅提升,单机上各个容器之间的争抢会增加,性能受到影响。宏观上,整个弹性...

2023-10-19 20:59:46 2788 1

原创 滴滴弹性云基于 K8S 的调度实践

上篇文章详细介绍了弹性云混部的落地历程,弹性云是滴滴内部提供给网约车等核心服务的容器平台,其基于 k8s 实现了对海量 node 的管理和 pod 的调度。本文重点介绍弹性云的调度能力,分为以下部分:调度链路图:介绍当前弹性云调度体系链路,对架构体系有一个初步的认知k8s 调度能力的运用:整体介绍弹性云现在用到的 k8s 调度能力和对其的增强k8s 版本的升级:介绍到从 k8s 1.12 到 1....

2023-10-17 21:00:00 4127 3

转载 CCF CED 2023,滴滴和你聊聊工程师文化(文末送门票)

大模型技术引发了新的技术浪潮,10月21日在苏州举办的CCF CED(中国计算机学会工程师文化日)将秉承推动工程师文化落地、促进企业创新的宗旨,探索大模型时代的工程师文化、创新力量,以期为参会者打开新的视角、帮助参会企业打造符合时代发展的企业文化。滴滴技术团队为大会的内容共创伙伴,滴滴自动驾驶技术副总裁盛克华将带来主题分享。滴滴主题分享盛克华滴滴自动驾驶技术副总裁演讲主题:《滴滴工程师文化建设:价...

2023-10-12 20:59:24 2680

原创 万字详解滴滴弹性云混部的落地历程

弹性云作为承载滴滴绝大部分业务的底层容器运行平台,已运行7余年,混部对于云来说并不是陌生的概念,业务上云的第一天就是运行在一个混部的环境中。业务容器化上云,核心诉求是降本增效,其中降本主要通过混部来实现,增效主要通过云上高效的运维方式来实现。本文主要关注弹性云混部相关的部分,包括演进过程、核心技术能力、线上混部现状、以及未来规划等。混部是指将不同的业务服务根据其相关特征,部署到相同的物理机/虚拟机...

2023-10-12 20:59:24 3102

原创 线上问题排查实例分析|关于网络超时

相较于日常的编程工作,线上问题排查往往是较为低频但重要的场景。尽管我们可能不常遇到,但每当这时,其紧迫性和重要性都使得我们必须迅速、准确地找出解决方案。因此,对技术人来说,培养有效的线上问题排查思路和方法至关重要。为应对这种不确定性,我们需要在平时就关注和学习他人的排查经验与技巧,以便在需要时能够迅速调用这些储备,冷静应对。滴滴技术公众号将定期分享线上问题排查的相关文章,以期为读者提供一些解决问题...

2023-10-10 20:57:45 2849

原创 可观测平台如何存储时序曲线?滴滴实践全历程分享

滴滴的时序曲线量从 2017 年 到 2023 年增长了几十倍。整个过程中我们不断地调整和改进以应对这样的增长。例如时序数据库的选型从最初的 InfluxDB,到 RRDtool,又开发了内存 TSDB 分担查询压力,再到 2020 年开始使用 VictoriaMetrics。载体也从全公司最高配的物理机型到现在的全容器部署。其中经历了很多的思考和取舍,下文将按时间顺序,为大家讲述这一系列的故事。...

2023-09-26 21:02:51 3035

原创 滴滴可观测平台 Metrics 指标实时计算如何实现了又准又省?

在滴滴,可观测平台的 Metrics 数据有一些实时计算的需求,承载这些实时计算需求的是一套又一套的 Flink 任务。之所以会有多套 Flink 任务,是因为每个服务按照其业务观测需要不同的指标计算,也就对应了不同数据处理拓扑。我们尽力抽象用户相同的计算需求,不过由于 Flink 实时计算任务开发模式和实时计算框架的限制,这些观测指标计算任务设计的都不够通用。使用 Flink 做 Metrics...

2023-09-21 21:03:47 2772

原创 滴滴 OrangeFS 数据湖存储关键技术揭秘!

2015年,滴滴为解决小文件和图片的存储,成立 GIFT 小对象存储项目。伴随着业务不断成长,我们面临的挑战也越来越多,经历多次非结构化存储架构演进,具体如下图所示:随着公司不断发展,滴滴的业务有两个发展的趋势:云原生技术战略和新业务涌现,都给存储系统带来了新的挑战。在云原生战略中,业务的极致弹性是提高资源利用率降低成本的一个目标。保障极致弹性的基础是容器的轻量化,而要实现容器的轻量化就必须实现存...

2023-09-19 21:03:27 2898

原创 服务拓扑串联难?eBPF为滴滴可观测带来解题新思路

上篇文章我们讲到可观测性在滴滴的实践与落地,更多关注的是不同观测信号之间的关联关系。那服务与服务之间的关系又如何串联,业界当前爆火的 ebpf 又在滴滴有着怎样的应用,本文为你揭晓。背景业务介绍:业务接口调用观测滴滴可观测平台除了负责滴滴 MTL 能力的建设,还涉及更偏向业务侧的数据及服务接口调用观测。关于接口调用拓扑观测,这里先解释下以免引起歧义。如下图描述了一个调用关系:一次请求、响应过程这里...

2023-09-14 21:00:23 3980 1

原创 可观测平台:滴滴可观测性的实现

可观测性(Observability)是近年来备受关注的话题。那什么是可观测性?别急,让我们先从一个常见的场景开始:你是一个一线开发同学,在某天上班路上收到了一个电话报警,提示某个接口的错误数超过了阈值 30。得益于公司监控团队做的所谓 chatops,几经周折后,你终于在 IM 中打开了对应的监控图表,发现当前的错误数似乎比之前多了一些。作为服务开发者的你,昨天晚上部署了一个新版本,并且依赖的服...

2023-09-12 21:00:15 4122 2

原创 微服务井喷时代,我们如何规模化运维?

随着云原生技术发展及相关技术被越来越多运用到公司生产实践当中,有两种不可逆转的趋势:1、微服务数量越来越多。原来巨型单体服务不断被拆解成一个个微服务,在方便功能复用及高效迭代的同时,也给运维带来了不少挑战:成本问题:服务及基础资源依赖的生命周期该如何运转?如何防止孤儿资源存在,防止资源浪费?如何提升资源利用率?效率问题:单元化服务如何快速高效部署?服务梳理及批量搭建责任归属:面对数量级倍增的服务及...

2023-09-07 21:03:16 2988

原创 复杂业务逻辑下的智能告警与故障定位该怎么做?

随着出行业务的发展与行业技术的革新,滴滴在业务上和技术上都在与时俱进,这个过程中呈现了其独有的特点与难点。在业务上,滴滴既要有严谨的交易逻辑和计算复杂的业务系统,又要有强一致性事务等特性的在线系统,要保证这类系统的稳定是最有挑战的。在交易中,每一笔订单的完整性、每一个状态的正确性、每一次支付的准确性都不能有毫末之差 。除了在业务完备性上的挑战,滴滴出行业务还具有典型的早、晚高峰期和平峰期的潮汐现象...

2023-09-05 21:02:55 2647

原创 我们是如何做数据稳定性保障的?

滴滴客服业务属于强运营的业务,运营的核心抓手是指标数据。这些指标有的是为了达成战略目标的OKR指标,有的是为了达成与合作伙伴结算的结算指标,做好数据稳定性,对整个客服业务的运营来说至关重要。解读数据故障治理建设目标实时类指标,包括进线量、排队量、接起率、触达率等指标。滞后类指标,包括解决率、关单率、升级率、满意度、服务质量等指标。过去两年,为了保障业务的连续性,我们投入了比较多的精力在稳定性建设上...

2023-08-31 21:03:00 5675 5

原创 滴滴线下仿真环境实践:从方案设计到持续运营

在软件开发的过程中,测试环境无疑是一个关键的组成部分,其为开发、测试团队提供一个安全、隔离的环境来验证软件的功能、性能和稳定性。通常在业务发展的早期,整体的系统复杂度不高,可以依靠几个人或者一个团队维护一个专用的测试环境容器。然而,随着业务的不断成长, 一个业务场景可能会包含成百上千个依赖服务,至此问题变得复杂起来,这也成为许多大公司所面临的痛点。滴滴作为一家有一定体量的互联网公司,也会遇到类似的...

2023-08-29 21:00:17 5083 1

转载 网约车技术线岗位热招中...

2023-08-24 21:01:04 1488

原创 技术人职场进阶全方位总结,建议收藏!

职业发展是我们每个人都绕不开的课题。近期滴滴技术视频号联合Mactalk视频号策划了相关主题的直播,直播围绕“职业规划、技术见解、工作复盘、团队合作”等话题展开,现将部分内容整理如下。嘉宾信息:马冠南:现滴滴网约车质量效能负责人、首席工程师。史海峰:公众号“IT 民工闲话”作者,CCF TF 数字化转型与企业架构 SIG 主席。Q:你们在做职业规划时的锚点是什么?什么时间点会考虑换工作,以及换工作...

2023-08-24 21:01:04 1663

原创 程序员必备的30条防御式编程思想原则

在分析若干线上问题之后,会发现很多问题并不是非常罕见的难题,而是由一个个较为明显的小错误积累而来,为什么会犯小错误?或许是因为侥幸心理,或许是因为只看到了局部的利益。从某一个例子来看,确实会有“偶因一着错,便为人上人”的侥幸,但是统计大量案例可以发现,大部分情况并不会有正面的结果。本文汇编我在需求评审、编码、项目上线几个阶段总结的原则,这些原则虽然不能直接解决问题,但是可以尽可能地优化每一步行为,...

2023-08-22 21:00:09 1687 1

原创 压多少抗多少,滴滴全链路压测仿真度量体系建设

滴滴在重大节假日、活动前为保障线上系统稳定,需要通过全链路压测做多轮风险排查以及容量验收,我们经常听到这样的声音"你们全链路压测和线上业务场景有多大差异"、"是不是压测达到目标线上真的能抗这么大量"、"我的某某个模块感觉在压测期间压力比线上大很多呢" 等等。我们缺少一套能看清压测覆盖与真实系统下流量差异的手段,而主观验证存在很大误差和不合理性,所以我们通过构建一套压测仿真度量体系,科学评估压测覆盖...

2023-08-17 21:00:28 1652

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除