- 博客(2267)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
转载 蚂蚁金服异常检测和归因诊断分析实践
在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个 KPI 指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。
2024-04-19 07:22:48 4
转载 异常检测:百度是这样做的
异常检测需要监控的业务繁多,覆盖了搜索、广告、地图、糯米等百度大部分的产品业务。及时发现这些业务请求数、拒绝数、响应时间、流水和订单等数据的异常波动,是业务稳定性的重要保证。这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征。第一幅曲线图中有蓝、绿两根曲线,分别代表当前时刻数据和上周同一时刻的数据。蓝色曲线几乎完全覆盖了绿色曲线,说明数据有规整的周期特性。第二幅曲线图中,紫色曲线是当前时刻数据,蓝色曲线是上一周的数据。可以看出:数据有一定的周期性,但又不如第一幅图那么规整。
2024-04-06 15:33:07 77
原创 Latex 常用数学公式
一般来说,1/2 这种形式更受欢迎,因为对于少量的分式,它看起来更好些。这样极限函数的上标和下标就会出现在符号的上下方,而不是右下方。放在开分隔符前,会自动决定分隔符的正确大小。某些情况下有必要手工指出数学分隔符的正确大小,这可以使用命令。,并且只有当这两个分隔符排在同一行时大小才会被正确确定。方根符号的大小由 LATEX自动加以调整。在定义从 A 到 B 的向量时非常有用。作为大多数分隔符命令的前缀。在表达式的上、下方画出水平线。在表达式的上、下方画出一水平的。你可以在下述命令的前面加上。
2024-03-27 21:43:31 966
转载 字节基于用户画像标签的分析及业务场景应用
随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。
2024-03-17 10:31:57 56
转载 基于宽表的数据建模应用
宽表建模更适合面向快速迭代的数据驱动型业务,能够提升业务效率基于当前的业务实践,宽表在存储和查询性能方面相比于传统数仓更优在业务效率提升的同时,宽表的建设会对数据生产和维护成本有所提升,还需结合实际应用进一步优化探索未来规划:基于宽表可以更方便的构建自助分析平台,进一步提升业务分析效率。
2024-03-13 10:27:03 59
转载 数据工程师如何应对巨量的取数需求?
做为一个数据工程师,这是必然要经历的过程,但只是经历不能一直深陷其中,如果你所在的部门一直处于接巨量的取数需求的状态,说明部门的数据建设的方向可能是不对的,那就让我们来看看有哪些破解之法吧,当然这次分享的破解之法,也肯定不是让这些需求排期,或者通过需求价值过滤需求等“行政”管理的方法,而是从技术与架构设计的角度给你一个全新的解决此类问题的视角。
2024-03-13 07:33:32 47
转载 信贷场景用户画像构建与应用
今天分享的主题是信贷场景用户画像构建与应用,将结合信贷场景的特殊性,深入讨论如何建立一个服务于整个信贷业务场景的用户画像特征体系。
2024-03-04 20:54:35 111
转载 如何基于数据科学进行用户兴趣分群?爱奇艺算法验证和迭代思路公开
爱奇艺商业智能部门总监陆祁女士将介绍爱奇艺在用户兴趣分群上的探索和实践,主要介绍如何基于数据科学进行用户兴趣分群,如何基于事实数据生成用户兴趣标签,以及介绍算法验证和迭代的思路,最后介绍如何基于用户聚类的方法去做用户兴趣分群。
2024-03-02 10:53:49 59
转载 美团 Doris Bitmap 精确去重优化实践
第一部分将介绍精确去重的业务场景以及现有的一些解决方案,并讲解 Doris MPP 架构在两阶段聚合实现中的原理和 Bitmap 数据结构的作用。在流量场景中,精确去重计算无疑是一项重要任务。尤其在计算多种维度下的去重指标时,如 PV、UV 及日活用户数等,去重指标的计算复杂度相较于普通指标(如 SUM 或 AVG)更高,更容易成为性能瓶颈。数仓生产:在 OLAP 引擎现场计算能力出现之前,去重指标的计算可以在数据仓库生产环节完成。
2024-01-30 07:55:19 160
转载 得物大模型平台接入最佳实践
本文介绍了业务系统接入大模型的三种方式:PROMPT、RAG和Fine-tuning。我们通过具体的实践案例,展示了这三种方式在不同场景下的效果和优势,以及如何根据业务需求和数据情况选择合适的方式。最后建议业务接入大模型的最佳实践,渐进式的接入,即 PROMPT,RAG,Fine-tuning,这个也是借鉴 OpenAI 开发者大会提出的接入方式。大模型是未来业务创新的重要驱动力,可以帮助业务提升效率、质量和用户体验。
2024-01-27 13:24:32 550
转载 智能化、自动化,揭秘抖音集团数据质量前沿探索
目前互联网行业已经进入成熟的大数据应用时代,数据“用起来”的问题已基本得到解决,随之而来的就是数据治理的问题,尤其是其中的数据质量问题。数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。这次分享主要聚焦在数据质量智能化和自动化方面的思考和实践。从应用场景视角来看待数据质量问题,通过自动化、智能化技术让数据质量可以被“观测”,把数据质量融入到研发、协作的流程中。
2024-01-14 17:17:34 126
转载 弥补大语言模型的短板,一文读懂LangChain框架
想象一下,一个对编程完全陌生的初学者,正面临着如何与模型进行交互的诸多问题,哪怕是简单的GET或POST请求,都可能成为其开发路上的第一道门槛。而LangChain的存在恰恰能跨越这道门槛,使得LLM应用开发变得触手可及。首先,LangChain的简洁性让它脱颖而出。开发者只需要写几行代码,就能运行一个大型LLM程序,甚至快速构建一个响应式的机器人。这种简洁性意味着,无论是对于有经验的开发者还是初入此领域的新手,LangChain都能为他们进入LLM应用开发的世界铺平道路。
2024-01-11 07:45:14 141
原创 2023年11月数据月报
Redis成本优化-版本升级-1.SDS优化历史 规则引擎与商业CRM的完美邂逅:将智能决策融入商业扩展 动态价格策略在货拉拉峰期中的提效实践 火山引擎云原生存储加速实战 如何在业务代码中优雅地使用责任链模式 杨成虎:存储&计算是过去,记忆&推理才是未来 电信网络运营事件知识图谱构建 干货|从数据治理看,如何打赢“双11”的数字化战争 Apache Pulsar 在腾讯云上的最佳实践 BES 在大规模向量数据库场景的探索和实践 Presto在知乎的缓存加速实践 权
2023-12-02 09:04:56 2220
原创 Spark 3.1.3 top 使用 Comparator 抛出 java.io.NotSerializableException 异常
这种问题一般都是对象没有序列化导致的
2023-11-20 07:47:26 215
转载 Hologres RoaringBitmap实践:千亿级画像数据秒级分析
我们团队所在的用户运营平台技术团队是一支懂用户,技术驱动的年轻队伍,团队立足体系化打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能用户增长,日均处理数据量千亿规模、调用QPS千万级。在用户规模达到一定量级的情况下,单一的运营策略对于用户的效果愈发有限,人群分析的能力,因此显得尤为重要,它能帮助我们发现潜在用户、找寻运营时机,为策略调整提供数据支持。
2023-11-06 08:52:24 309 1
转载 电商归因模型技术方案
我们引入电商坑位归因的概念,把每一笔的成交都归给转化路径中不同的坑位。根据坑位的曝光转化价值来评判坑位的好与坏。把宝贵的流量尽可能都引导到转化率更高的坑位,以此达到精细化运营的效果。当然有了这个坑位价值评判的机制后各个坑位的改版也能准确的评估,真正做到了数据驱动增长。
2023-11-06 07:44:38 226
转载 火山引擎VeCDP: 如何0-1构建与应用标签体系
首先介绍标签和标签体系的基本概念。火山引擎VeCDP的标签最终服务于上层的业务场景,例如营销、分析等场景。而标签体系是对标签的一种组织方式,对标签进行分类,形成一套可以长期稳定使用并且适用性较强的框架。
2023-11-04 20:43:10 265
转载 LangChain:2023年最潮大语言模型应用开发框架
LangChain 是一个帮助在应用程序中使用大型语言模型(LLM)的编程框架。与生成式 AI 中的所有东西一样,这个项目的发展也非常迅速。2022 年 10 月,它先是作为一款 Python 工具,然后在今年 2 月增加了对 TypeScript 的支持。到今年 4 月,它支持多种 JavaScript 环境,包括 Node.js、浏览器、Cloudflare Workers、Vercel/Next.js、Deno 和 Supabase Edge Functions。
2023-11-04 14:22:24 328
转载 CDP 在 Qunar 精细化运营中的建设实践
客户数据平台 CDP(Customer Data Platform)已成为精细化运营的标配工具,去哪儿旅行经过多年的建设,广泛应用于各种业务场景中,产生累计亿级别的收益,并且 CDP 项目也获得了公司年度金项奖。本主题先后受邀在CSDI SUMMIT、InfoQ QCon+、DataFun 峰会,以及 Qunar 对外直播大数据系列课中进行了分享。本文结合对外分享内容进行整理,从 CDP 的业务背景、建设实践、总结应用、未来展望四个方面进行介绍精细化运营中 CDP 的业务价值,希望对这方面感兴趣的同学有所启
2023-11-01 07:44:22 191
转载 多维分析在网易云音乐社交创新业务的应用
无论做什么,背景都是很重要的,不同背景下使用合适的技术,不仅会有较大的效率提升也能发挥更多的价值。创新业务是云音乐重要的板块之一,主要是由多样化社交为主的创新app矩阵构成,包括陌生人社交的心遇app,主打声音互动的声波,海外社交应用HeatUp等,覆盖不同社交需求的群体
2023-10-31 07:46:09 187
转载 小米智能分析的产品化实践:构建决策型BI平台
回到最本源的一个问题,就是为什么要去做智能分析?增强分析这个概念应该在五年前就开始被提出了,在近些年的Gartner的公布的报告里面也频繁提到BI平台的未来发展是AI和BI结合。但为什么我们在今年的这个节点才去做智能分析的事情,而不是很早就开始做?
2023-10-31 07:34:06 173
转载 增强分析技术原理与实践
增强分析是下一代数据和分析范式,它面向广泛的业务用户、运营人员和民间数据科学家,利用机器学习将数据准备,洞察发现和洞察共享等过程自动化。从 Gartner 这个定义看来,在概念提出之初定义还是很模糊和宽泛的,在之后的两三年,Gartner 也在不同的报告中围绕这一概念做了许多的讨论。我们对其中的观点进行了总结,从三个角度来看增强分析相较于传统数据分析到底"增强"在哪里。数据准备洞察发现结果共享增强分析的重点在于提高这一流程的易用性 ( 无代码化 ) 和自动化程度。
2023-10-30 07:53:22 184
转载 数仓建模平台在网易严选的探索实践
第一个实施步骤是规范指标定义体系的建设。原先的设计流程通常仅仅是很随意地录入到旧的指标管理系统中,经常存在指标含义表述不清、重复设计等问题;此外还存在不少指标只记录在离线文档,口口相传。切分业务域;进行维度设计,生成派生词,也就是业务限定;设计业务过程,包括确定业务流程,设计维度矩阵以及度量;设计原子指标、衍生原子指标,包括关联度量,明确数据类型、汇总方式,公式化地描述衍生原子指标的计算方式;
2023-10-29 16:37:51 150
转载 B站数据质量保障体系建设与实践
本文将分享 B 站数据质量保障体系的建设和实践。文章将关注数仓和建模的相关方法论,讲解 B 站数仓平台团队在数仓建设和建模过程中所做的工作,并分享质量保障方面取得的成果。
2023-10-28 21:34:09 146
转载 ClickHouse 在十亿级用户画像平台的应用实践
当前时代,数据分析早已不再满足于传统的 T+1式报表或需要提前设置好维度与指标的 OLAP 查询,而是更希望使用可以支持任意指标、任意维度并秒级给出反馈的大数据实时查询系统。ClickHouse 的出现,满足了绝大数场景下对大数据的实时分析和查询需求。本文主要介绍了 ClickHouse 的基本概念、核心特性,以及基于 ClickHouse 构建用户画像平台的设计方案、实践经验和未来规划。如果你正在使用 ClickHouse,希望本文能够帮助到你。
2023-10-28 09:02:40 465
转载 知乎用户画像与实时数据的架构与实践
知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。在 2021 年 8 月,知乎平台团队成立数据赋能团队。
2023-10-28 08:20:33 213
转载 阿里巴巴数据模型设计与构建实践
阿里云大数据开发治理工具 DataWorks 从2009 年发展至今,已经有14年的发展历程。2021年云栖大会上,DataWorks 全新推出数据建模工具 DataWorks 智能数据建模。同 DataWorks 数据开发等产品模块相同,智能数据建模的产品建设离不开阿里巴巴内部各业务线的数据仓库团队,如菜鸟、淘宝、天猫等数据仓库团队的贡献。本文将分享阿里云 DataWorks 智能数据建模在产品建设过程中的一些思考
2023-10-27 08:00:07 546
原创 Spark SQL 数据源 Load 与 Save 函数
Spark SQL 支持通过 DataFrame 接口操作各种数据源。可以使用关系变换,也可以创建临时视图来操作 DataFrame。将 DataFrame 注册为临时视图可以允许你在其数据上运行 SQL 查询。本节介绍使用 Spark Data Sources 加载和保存数据的通用方法。可以通过 load 方法从文件中加载数据创建 DataFrame,同时也可以使用 save 方法将 DataFrame 中的数据保存到文件中,具体如下所示。
2023-10-26 08:22:26 183
大型网站技术核心原理与案例分析
2015-12-25
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Sqoop Cookbook
2016-11-14
Apache Spark源码剖析
2016-11-12
Elasticsearch.The.Definitive.Guide
2016-10-21
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Java Persistence with MyBatis 3
2016-02-06
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大规模分布式系统架构与设计实战
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人