自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 收藏
  • 关注

原创 齐了!百度、腾讯、滴滴、抖音的技术大佬都来了

本次大会组建了强大的专家阵容,目前包括2名联席主席、数十位出品人,参会可现场与专家互动。

2023-04-06 14:23:31 556

转载 十分钟验证一个高性能车联网数据平台解决方案

本文将分享车联网大数据平台的解决方案。1. 高性能车联网大数据平台要具备的能力2. 每秒 1.8 亿写入的车联网大数据平台应用实例3. 基于 DolphinDB 的车联网大数据处理架构4. 代码附录分享嘉宾|DolphinDB智能网联汽车在车联网的应用上,通常是以为基础,结合大数据、人工智能技术,通过 OT (Operation Technology)和 IT (Information Technology) 融合的方式,实现智能车辆的辅助驾驶、状态监控、远程管理、数据分析及决策等功能。

2024-03-28 19:45:00 40

原创 数据治理与大模型一体化实践

大模型落地到当前这个阶段,核心关注点还是领域大模型,而领域大模型落地的前提在于两点:需求端,对当前应用的降本增效以及新应用的探索;供给端,训练技术已经有较高的成熟度。

2023-12-21 19:00:00 1040

原创 OLAP技术的选择,进化和思考

“在多年以前,数据库的硬件瓶颈主要在于磁盘和网络带宽,随着磁盘读写速度和网络带宽的提升,也就是IO不会成为数据库的明显瓶颈。”炎凰数据研发工程师吴立表示,“如今,CPU成为了数据库执行效率上的新的瓶颈。”

2023-12-21 13:47:33 926

原创 降本不增“笑”的正确打开方式

在应用分发场景深挖用户价值,怎么做到的?

2023-12-21 12:02:57 935

原创 如何冲破 GPT-4 的信息茧房?

即便大模型已成为行业趋势,人工智能从业者仍然需要扎根经典技术和现实场景来构建准确、高效的人工智能应用,这是数据智能时代的基本实践之道,也是 DataFun 一直不忘的使命。

2023-04-27 14:22:21 541 1

原创 如何高效获取数据价值?

数据经过生产后,要进行消费,实现数据价值转化。但在提高数据消费性能之前,首先要面对的是规范化、质量不足带来的成本消耗。

2023-04-18 14:56:29 457

原创 大数据架构知识点详解:国产数据库创新、湖仓一体实践…

每个体系内,知识依然是庞大的,该选择哪些作为选题呢?

2023-04-13 12:17:05 200

原创 这届技术人都爱挂在嘴边的“数智化”,我们用八个字拆解了

成就百万数据智能从业者,DataFun是怎么做的?

2023-03-30 15:12:56 189

原创 来自OpenAI的数据工程革命,GPT-4仅仅是开端

在本次大会中,你将领略到数据智能技术实践最前沿的景观。

2023-03-23 18:48:55 122

原创 B站基于缓存优化 PRESTO 集群查询性能

当 Presto 去 Hive Metastore 查询的时候,如果想要访问 Alluxio 的数据时,比较简单的做法是将 Hive Metastore 里相应的 scheme 转换为 Alluxio 的 scheme,但这会带来的问题是对于其他的引擎(比如 spark),因为其本来就没有接入 Alluxio,会导致查询不可用。Dispatcher 是一套内部自研的服务,根据查询 HDFS 的数据量、目前引擎的负载情况等将用户提交的 query 路由到相应的引擎进行执行。此问题已经在社区中有了相应的修复。

2023-02-13 18:39:20 850 1

原创 可扩展的图神经结构搜索系统

​张文涛 博士|腾讯 Angel Graph团队成员

2023-02-08 16:15:00 245

原创 图算法在风控场景的应用

在现实应用中,很多时候我们没有办法对黑白灰样本去做完全精确的定位。那该如何利用类似社交网络的同质性(好人和好人关系近,坏人和坏人关系近)做团伙识别?在风控场景,很容易通过强规则产出高准确率的样本,但覆盖率很低(低召回),那么如何扩充这些样本呢?

2022-12-16 17:04:01 1608

原创 基于知识图谱的多模内容创作技术

机器真的可以像人类一样去创作吗?机器创作的方式是怎样的?机器创作有哪些价值?

2022-12-14 12:00:57 542

原创 免费电子书|《联邦学习综合应用》

限时免费赠送~

2022-12-08 18:30:49 244

原创 火山引擎虚拟数字人技术与应用

火山引擎正在打造完善的虚拟数字人技术和应用体系,那么火山引擎是如何定义虚拟数字人的呢?火山引擎 2D 虚拟数字人和 3D 数字人采用了怎样先进的技术?火山引擎数字人有哪些应用和前景展望?今天我们就来一起探秘火山引擎虚拟数字人技术与应用。

2022-12-03 20:00:00 2897 2

原创 京东零售大数据云原生平台化实践

云原生这个概念大家已经很熟悉了,但是否有一个准确的定义呢?每个人都在说云原生,但大家对云原生的理解是不同的。

2022-12-03 15:13:09 663

原创 京东零售大数据云原生平台化实践

分享嘉宾:吴维伟 京东 架构工程师编辑整理:陈妃君 深圳大学出品社区:DataFun导读:随着业务调整和集群资源整合需求,大数据系统中集群数据迁移复杂混乱。本文将以京东大数据平台为例,介绍京东近一年在数据分布式存储和分层存储上的探索和实践。今天的介绍会从下面三点展开:京东数据平台架构简介跨域存储分层存储--01/京东数据平台架构简介京东数据平台的整体架构主要由六部分组成,其中数据存储作为计算存储层的底层组件支撑着上游的计算引擎调度,以及更高层的工具层、服务层和应用层。在整个数据平

2022-11-26 16:23:15 1308

原创 基于隐私保护计算的金融科技创新探索

分享嘉宾:霍昱光 建信金科 资深算法研究员编辑整理:松烨 博瑜科技出品平台:DataFunTalk导读:本次分享主要聚焦于行业应用方面,介绍建信金科在隐私保护计算领域所做的一些探索和尝试。01/背景介绍随着数据规模持续上涨,根据中国大数据市场的预测,预计2025年的数据量会将从2018年的7.6ZB增至2025年的48.6ZB,超过美国同期的数据产生量约18ZB。同时带来的是数据泄露隐患逐渐提升,自2018年5月25日欧盟主导的数据保护法《通用数据保护条例》(GDPR)生效以来,监管机构总计对

2022-11-10 08:03:02 526

原创 未来数据库需要关心的硬核创新

分享嘉宾:刘冰冰 亚马逊云科技编辑整理:张了了 聚水潭出品平台:DataFunTalk导读:数据库经过了几十年的发展,目前已经是一项非常成熟的技术,然而随着当今互联网的极速增长,我们进入到云时代,企业亟需构建现代化的应用,因此数据库有了更大的挑战。今天结合当前时代的发展和趋势,分享未来数据库需要关注的硬核创新。今天的介绍围绕以下几部分展开:趋势——数据库自由和创新数据库硬核创新——云原生数据库数据库硬核创新——云原生数据库迁移利器演示——云原生数据库迁移利器问答--01 趋势——

2022-07-24 13:51:27 876

原创 美团大脑百亿级知识图谱的构建及应用进展

分享嘉宾:张鸿志博士 美团 算法专家编辑整理:廖媛媛 美的集团出品平台:DataFunTalk导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“

2022-07-23 19:32:17 606

原创 翟佳:高可用、强一致、低延迟——BookKeeper的存储实现

分享嘉宾:翟佳 StreamNative 联合创始人编辑整理:张晓伟 美团点评出品平台:DataFunTalk导读:多数读者们了解BookKeeper是通过Pulsar,实际上BookKeeper在数据库和存储场景都有着非常广泛的应用。BookKeeper是Pulsar的底层存储,Pulsar有着广泛数据入口,Pulsar跟Kafka及各类MQ(RabbitMQ、ACTIVEMQ)的较大区别是Pulsar是统一的云原生消息流平台,不但是分布式系统,而且做了存算分离,可以让用户在云的环境下,体验到云原

2022-07-22 14:38:15 524

原创 管正雄:基于预训练模型、智能运维的QA生成算法落地

分享嘉宾:管正雄 阿里云 高级算法工程师出品平台:DataFunTalk导读:面对海量的用户问题,有限的支持人员该如何高效服务好用户?智能QA生成模型给业务带来的提效以及如何高效地构建算法服务,为业务提供支持。本文将介绍:阿里云计算平台大数据产品答疑场景;基于达摩院AliceMind预训练模型实现的智能QA生成算法核心能力及背后实现原理;如何通过智能运维服务平台将算法能力输出,给业务提供一站式服务,优化答疑体验。主要分为以下几部分:背景介绍QA生成框架QA生成在业务场景中的应用总结与规划精

2022-07-21 17:13:43 963

原创 云娜:从计算、存储角度,谈网易数据治理工具产品实践

导读:在公司内部,业务线经常面临数据有哪些、质量如何、是否可用、能产生多大价值的困惑,并且,随着数据量的增加,计算和存储资源面临瓶颈。本次将围绕数据治理重点关注的计算、存储等方面,分享数据治理的产品实践。通过分享,一方面可以了解当前业务线主要面临的待治理的数据问题;另一方面,从计算、存储等主要方面,了解数据治理需要重点关注的内容,同时,对数据治理的整体产品实践有宏观的认识,对内部业务线的数据治理提供针对性的建议。本次分享将主要包括以下几大方面:过往数据治理回顾当前治理痛点产品整体策略未来规划-

2022-06-20 15:04:52 236

原创 腾讯叶聪:朋友圈爆款背后的计算机视觉技术与应用

分享嘉宾:叶聪 腾讯 技术专家编辑整理:张智跃内容来源:DataFun AI Talk「智能技术前沿实践分享」出品社区:DataFun导读: 本次分享系统介绍计算机视觉的基础知识,如何利用这些识别算法实现一个应用,同时进行部署、推广这一整套流程。主要包括以下六个部分:1、朋友圈爆款活动背后的秘密;2、计算机视觉基础;3、曾经的图像处理方法-传统学习方法;4、图像处理的爆发-深度学习方法;5、解析云端AI能力支撑;6、技能进阶。--01 朋友圈爆款活动背后的秘密下图是五四青年节的活

2022-06-19 13:06:34 443

原创 牛亚男:基于多Domain多任务学习框架和Transformer,搭建快精排模型

导读: 本文主要介绍了快手的精排模型实践,包括快手的推荐系统,以及结合快手业务展开的各种模型实战和探索,全文围绕以下几大方面展开:快手推荐系统CTR模型——PPNet多domain多任务学习框架短期行为序列建模长期行为序列建模千亿特征,万亿参数模型总结和展望--01 快手推荐系统快手的推荐系统类似于一个信息检索范式,只不过没有用户显示query。结构为数据漏斗,候选集有百亿量级的短视频,在召回层,会召回万级的视频给粗排打分,再选取数百个短视频,给精排模型打分,最后会有数十个短视频..

2022-06-18 18:52:00 480

原创 京东张政:内容理解在广告场景下的实践和探索

分享嘉宾:张政 京东 算法工程师编辑整理:AMS 周金星出品平台:DataFunTalk导读: 内容生态建设是近几年互联网快速发展的关键动因,也是AI化的重点方向之一。本文主要分享在京东广告业务下内容理解体系的建设情况,从标签化、内容准入、质量美学评价等多个角度探讨内容理解能力的应用;同时整体介绍智能创意助力广告内容生态建设,从内容理解到内容生成(视频、图片、文案),再到内容分发,并穿插OCR、智能抠图、多模态等相关的基础前沿算法能力。本文将围绕以下几部分进行展开:背景介绍内容理解体系智能

2022-06-17 18:39:54 413

原创 李呈祥:bilibili在湖仓一体查询加速上的实践与探索

导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践。主要内容包括:什么是湖仓一体架构哔哩哔哩目前的湖仓一体架构湖仓一体架构下,数据的排序组织优化湖仓一体架构下,索引增强与优化的实践探索--01 什么是湖仓一体当我们讲湖仓一体时,涉及到数据湖和数据仓库两个概念。什么是数据湖?通常来说,它有以下几个特点:有一个统一的存储系统,所有的数据都放到这个统一的存储系统里,没有数据孤岛。支持任意数据类型,比较自由,包括结构化、半结构化和非结构化的数据..

2022-06-15 11:58:55 364

原创 蒋鸿翔:网易数据基础平台建设

导读: 首先简单介绍一下网易杭州研究院情况简介,如下图所示:我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的数据,进而产生更大的价值,比如如何整合现有功能流程,节省用户使用成本;增加新平台不断调研,丰富平台功能;新平台功能、性能改造,从而满足用户大规模使用需求;根据业务实际需求,输出相应的解决方案等。今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年的大数据建设经验。--01 数据库技术数据..

2022-06-14 14:16:11 190

原创 陈宏智:字节跳动自研万亿级图数据库ByteGraph及其应用与挑战

导读: 作为一种基础的数据结构,图数据的应用场景无处不在,如社交、风控、搜广推、生物信息学中的蛋白质分析等。如何高效地对海量的图数据进行存储、查询、计算及分析,是当前业界热门的方向。本文将介绍字节跳动自研的图数据库ByteGraph及其在字节内部的应用和挑战。本文将围绕以下五点展开:了解图数据库适用场景介绍举例数据模型和查询语言ByteGraph架构与实现关键问题分析-01 了解图数据库目前,字节内部有如下表三款自研的图数据产品。1. 对比图数据库与关系数据库图模型的基本元素..

2022-06-13 11:49:18 394

原创 邱盛昌:OPPO商业化数据体系建设实战

导读:本文是OPPO商业数据研发负责人&技术专家邱盛昌老师带来的“OPPO商业化数据体系建设实践”的分享。整体内容围绕着下图中垂直划分的六个部分展开,分别为:数据平台、数据接入、数据开发、数据治理、数据应用和数据分析,这个图也概括了典型的数据体系的所有内容。--01 数据平台数据平台由公司提供,商业数据研发作为平台使用方,首要职责是基于公司级的数据平台下构建商业化数据体系。平台与业务两个团队的分界遵循如下原则:“有则用,不等待,愿迁移,可贡献”。在实践中,这个原则在最大程度保证了团队工..

2022-06-12 15:08:17 282

原创 罗景:连接效率优化实践

分享嘉宾:罗景 58同城 高级架构师编辑整理:洪鹏飞内容来源:DataFun AI Talk《连接效率优化实践》出品社区:DataFun导读:本次分享由以下几个部分构成——58的业务背景综合排序框架效率优化框架基础数据流程(数据)策略优化路径(算法)效率优化平台(工程)总结和思考--01 58的业务背景这是58app端的业务展示,可以看出58的业务场景丰富且复杂,产品形态多样,涵盖了租房、二手房、二手车、招聘、本地服务以及二手物品等多种业务,针对每个业务,又分为置顶,精

2022-06-11 12:04:30 175

原创 蚂蚁金服杨军:蚂蚁数据分析平台的演进及数据分析方法的应用

导读: 大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的。具体分以下四部分:Part1:主要介绍下我所在的部门,数据平台部主要是做什么的,大概涉及到哪些业务,在整个数据流程当中数据平台部负责哪些东西;Part2:既然我们讲数据分析平台,那么数据分析是什么样的,数据分析领域是什么样的;Part3:蚂蚁现在的数据分析平台是怎么来的,是怎么演进到最新版本,在最新版本3.0里面有一些技术详解;Part4:既然有了数据分析平台,那么数据分析能帮我们干什么,讲了..

2022-06-10 11:49:02 691

原创 苏涛:对抗样本技术在互联网安全领域的应用

导读: 验证码作为网络安全的第一道屏障,其重要程度不言而喻。当前,卷积神经网络的高速发展使得许多验证码的安全性大大降低,一些新型验证码甚至选择牺牲可用性从而保证安全性。针对对抗样本技术的研究,给验证码领域带来了新的契机,并已应用于验证码反识别当中,为这场旷日持久攻防对抗注入了新的活力。分享内容包括三大方面:对抗样本介绍极验对抗样本技术探索与应用后续的工作与思考-01 对抗样本介绍1. 什么是对抗样本对抗样本 ( Adversarial Examples ) 的概念最早是 Chris..

2022-06-09 12:03:56 632

原创 融360蒋宏:自动化特征工程和自动建模在风控场景的应用

01 背景和问题目前,模型开发的流程越来越规范化,通常可以分为业务分析、样本准备、特征工程、模型构建、模型评估及监控这几个步骤。其中,特征工程和模型构建在建模的整个流程中依然非常耗时,并且非常依赖于模型开发者对业务的理解及数据处理的能力。在目前实际业务场景下,面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要20天左右的时间才能达到上线的要求。其中,特征工程的耗时在整个建模过程中会占到大约60%的时间,且这个过程的挑战就是人工提取特征..

2022-06-08 13:24:11 538

原创 李卓豪:网易数帆数据中台逻辑数据湖的实践

导读: 本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分:关于网易数帆为什么做逻辑数据湖怎么做逻辑数据湖未来规划精彩问答--01 关于网易数帆网易数帆是从网易杭州研究院孵化出来的。网易杭研的重要职责是公共技术的研究和产品孵化。下图是网易数帆的整体产品架构。1. 网易大数据发展历史网易是国内领先的互联网技术公司,从2006年就开始对大数据相关技术进行探索。2009年为了支撑网易博客等产品的海量数据,开始..

2022-05-28 20:20:53 672

原创 陈宏申:浅谈京东电商商品文案挖掘难点与优化实践

导读: 在电商推荐中,除了推送商品的图片和价格信息外,文案也是商品非常重要的维度。基于编码器解码器范式的序列文本生成模型是文案挖掘的核心,但该种方法面临着两大技术挑战:一是文案生成结果不可靠和生成质量不可控,无法满足业务对电商商品文案内容可靠性的严格要求;二是序列文本生成模型经常面临数据坍塌,比较容易生成万金油式的安全文案,文案内容本身的多样性会越来越低,且无法捕捉语言本身的流行或演化趋势。针对以上两大挑战,在以文案生成系统为核心的基础上,引入了文案摘要清洗系统和文案质量评估系统,总结提出了一个通用的电..

2022-05-25 19:58:15 421

原创 天空卫士陆明:数据法在企业如何落地

导读:数据安全立法2018年9月于十三届全国人大常委会列入立法规划。经过三次审议,在2021年6月10日,十三届全国人大常委会第二十九次会议正式表决通过,并于2021年9月1日起施行。从法律角度来说,国家对于数据安全越来越重视,作为企业该如何针对数据安全法进行数据安全治理的规划,最终进行对应的技术落地?本文将分享数据法在企业的落地。主要内容包括以下几大方面:背景介绍数据安全架构——DSG框架数据安全控制——CARTA模型技术总结-01 背景介绍首先来看一下近几年企业数字化转型以及数据..

2022-05-23 11:56:34 628

原创 罗强:腾讯新闻如何处理海量商业化数据?

导读: 随着信息化时代的来临,信息呈现出爆炸式的增长。尤其是在移动互联网的推动下,每天大量信息涌入让人们应接不暇,腾讯新闻客户端的出现,就是以帮助用户寻找有用信息而出现。这时,面对海量的数据、繁多的业务,如何处理手中的数据,利用数据赋能是今天会议讨论的重点。今天的介绍会围绕下面三部分展开:背景介绍海量日志处理架构数据应用举例--01 背景介绍首先介绍一下腾讯新闻的背景。团队目前承担腾讯新闻客户端,体育和新闻插件的创新业务的输入,广告和用户行为的数据采集、处理、计算和分析的工作。最大的特.

2022-05-22 14:21:00 242

原创 阿里妈妈牟娜:定向广告新一代点击率预估主模型——深度兴趣演化网络

分享嘉宾:牟娜 阿里巴巴 高级算法工程师编辑整理:孙锴内容来源:DataFun AI Talk《定向广告新一代点击率预估主模型——深度兴趣演化网络》出品社区:DataFun导读: 本次带给大家分享是阿里妈妈在2018年做的模型上的创新——深度兴趣演化网络(Deep Interest Evolution Network),分享将从以下几个方面展开——提出该模型的背景及原因该模型的结构详解该模型的最终效果--01 背景#1、业务形态在介绍该模型创新背景之前,先来看一下我们的业

2022-05-21 15:09:10 243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除