Transwarp

星环大数据杂谈

  • 博客(159)
  • 收藏
  • 关注

原创 Sophon AutoCV推动AI应用从模型生产到高效落地

而在长尾智能化场景中,业务导向更加明显,智能分析场景碎片化且通常传递链条较长,和业务价值高度相关,此情况下用户往往是期望通过有效的手段进行快速的从数据到人工智能模型到业务价值的验证,从而达到能够直接落地,快速提升数据价值和业务价值的目的。不仅支持存量智能场景中的模型高精度迭代,还能帮助企业快速落地新的智能化场景,解决传统智能场景中存在的模型维护、迭代效率低、建模周期长、部署成本高、数据资产积累难等应用痛点。金融行业数据资源丰富,数据依赖程度高,场景安全要求高,目前人工智能技术已成为金融行业的必备基础。

2024-03-01 15:50:41 800

原创 白话大模型③ | 我们为何需要机器学习运营平台?

需求、数据、环境在不断扩大、变化,以机器学习和神经网络这类“数据驱动”的人工智能的运行逻辑,导致每次更新(更新大小并不是人认知的模糊的大小,而是机器能处理的数量化后的大小),都需要重新训练模型,重新采集数据,重新标注数据,重新建立模型,重新验证模型,重新上线,这个过程重来一遍是非常耗时耗力的;短期可以,长期不可以。1.减少了人工去做各类特征提取(比如测量人的瞳距),就需要大量“不同”的数据,来训练模型,得到“映射关系”,至于“什么是不同,怎么不同,要的量多少,现实中这种不同很少,能不能合成或生成?

2024-03-01 15:50:02 374

原创 白话大模型② | 如何提升AI分析的准确性?

• 数据清洗 :将明显不符合需求的数据剔除,比如:人脸不清晰、人脸不完整、人脸不在中心、人脸不是正脸、人脸不是人脸(比如是猫脸)等,再比如算法上有问题的:重复的(直接重复、有些位置移动/旋转的)、数据毒害的(故意数据投毒的、比如打印的人脸/面具而不是真实人脸的)等等,清洗出“高质量”数据实际工作远比看上去的复杂得多得多;•建立高效的查询方法:使用同样的映射关系,处理待查的图像,然后使用人脸卡片目录中的人脸嵌入向量,找到最相似的ID,然后再找到对应的人脸图像。答:用“数据驱动”的“机器学习”方法。

2024-03-01 15:49:26 391

原创 白话大模型① :AI分析能做什么?在实际落地中会碰到什么问题?

我们需要保存的“人脸卡片目录”信息包括(姑且认为):1.人脸的特征(比如眼睛、鼻子、嘴巴等):可以是相对大小、颜色等2.人脸的位置:可以是相对位置、绝对位置等3.人脸的编号:可以是身份证号、学号等实际操作中,人脸卡片目录一般都“编码”成了一串固定长度,比如说 1024,的数字(也就是“向量”),其有个特定且形象的名字“嵌入向量”:将人脸的特征(比如瞳距、鼻宽等)、位置(眼相对鼻距离等)、编号等信息,”嵌入“到这 1024 维的“向量”中。而且,更重要的是,这样提取,很难保证“准确性”和“泛化性”。

2024-03-01 15:48:54 895

原创 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。基于这样的宗旨,星环科技TDH正式发布了9.3版本。推出了避免数据冗余,减少数据流转,提升业务综合性能与时效性。同时,此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

2024-03-01 15:48:18 962

原创 基于图数据库构建知识图谱平台应用实践

2021年,随着应用激增,为了满足企业级的建设需要,中信证券基于星环科技分布式图数据库StellarDB和知识图谱平台SophonKG,打造了全新的企业级知识图谱平台,知识图谱平台的图存储技术为自研KV存储,存储设计按照属性图模型设计,满足TB级存储需求。中信证券基于分布式图数据库StellarDB,替代国外开源图数据库产品,打造全新的企业级知识图谱平台,应用于同一客户集团画像、科创板关联发现、风险事件报告、全球企业关联图谱、产业链图谱、投研图谱、反洗钱与稽核图谱、元数据图谱等应用场景。

2024-03-01 15:47:32 838

原创 产品解读 | 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。基于这样的宗旨,星环科技TDH正式发布了9.3版本。推出了避免数据冗余,减少数据流转,提升业务综合性能与时效性。同时,此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

2024-01-25 15:05:31 1183 1

原创 技术解读 | KunDB助力头部金融机构关键系统的Oracle国产替代

通过自主原创的PL/SQL编译器,KunDB完整支持PL/SQL,如类型、控制语句,自定义数据类型等全部PL/SQL语法,并且执行性能比解释执行提升一个数量级,解决了Oracle业务迁移到国产化数据库的核心痛点。,KunDB支持基于Oracle的业务直接或者通过中间件框架进行连接,包括Java、.NET、C/C++等语言开发的应用,尤其是针对C/C++应用提供兼容Oracle的OCI/OCCI驱动,来保障业务的平滑迁移。监控告警,包括负载指标监控、SQL监控、AAS监控、告警规则设置、实时告警等。

2024-01-25 15:03:38 895

原创 行业应用 | Sophon AutoCV推动AI应用从模型生产到高效落地

而在长尾智能化场景中,业务导向更加明显,智能分析场景碎片化且通常传递链条较长,和业务价值高度相关,此情况下用户往往是期望通过有效的手段进行快速的从数据到人工智能模型到业务价值的验证,从而达到能够直接落地,快速提升数据价值和业务价值的目的。Sophon AutoCV专注于打通数据、模型、应用、运营各环节,以原始数据为起点,模型训练为工具,数据价值为业务终点,通过构建“数据-模型-反馈”闭环,助力CV模型高效持续迭代并最终规模化部署落地,为企业高质量发展注入智慧动能。当前,建筑业智能化升级时机已经成熟。

2024-01-25 15:00:34 832

原创 “研学测”好帮手,三步带你安装体验TDH社区开发版

基于社区开发版开箱即用、0配置的特点,用户可以直接上手实操大数据平台,无需学习各类开发语言,使用统一SQL即可操作不同数据库模型以及数据格式下的数据(如表、文档、图等)。TDH社区版一站式的满足了用户低成本构建数据仓库,OLAP分析等需求,社区开发版更是进一步地降低了用户的开发门槛,无论是开发人员还是科研人员,均可借助社区开发版快速享受到大数据技术所带来的技术红利。得益于all-in-one产品包的设计,用户无需再单独安装Manager及其他各服务产品包,启动容器后仅需等待30s即可一键启动TDH平台。

2024-01-25 14:48:46 376

原创 星环科技基于第五代英特尔®至强®可扩展处理器的分布式向量数据库解决方案重磅发布

同时,星环科技能够为企业提供大模型应用开发全周期的技术和产品,通过Transwarp Hippo向量数据库和大模型统一运营管理平台Sophon LLMOps、金融大模型Transwarp Infinity“星环无涯”、大数据分析大模型Transwarp SoLar“求索”等产品组合,帮助每个企业更快、更精确地打造真正符合实际需求的专属领域大模型,促进生产力提升,加速业务创新和价值实现。同时,第五代英特尔®至强®可扩展处理器在性能提升的同时,具备更高的每瓦性能,有助于节省单位性能的能耗支出。

2024-01-25 14:35:43 1016

原创 第三届“新科技 星力量” 科技实践案例评选【获奖名单】揭晓

经过产业界、学术界专家联合评审,最终评选出了“信创先锋之星”、“技术革新之星”、“价值贡献之星”、“科技前沿之星”、“科技向善之星”五大奖项。为表彰使用大数据、人工智能等基础软件为企业、行业或世界做出杰出贡献和巨大创新的标杆项目,星环科技自2021年推出了。

2024-01-25 14:19:51 376

原创 星环科技Sophon 3.2发布,通过“六易三仓两中心”实现新一代AI平民化

提供一键部署以及可视化的服务推理搭建部署的模式,并从模型调用情况、模型使用资源情况、模型数据偏移情况等方面提供全方位监控,同时从模型预测性能、模型可解释、模型输入输出偏移等方面提供多维度的评估,让模型易管理,全面掌握模型服务运行状态;Sophon 3.2从数据接入获取、模型构建训练、模型运维管理、模型发布迭代等AI应用全生命周期的相关流程出发,考虑用户可能遇到的问题后,从样本管理、场景开发、模型获得、模型管理、效果迭代及系统运维六大方面降低用户使用的门槛,实现新一代AI平民化。

2023-10-31 16:44:14 149

原创 星环科技分布式向量数据库Transwarp Hippo正式发布,拓展大语言模型时间和空间维度

星环“无涯”大模型能够理解金融行业的术语,也能够执行特定的任务,比如分析上市公司的年报、公告,生成新闻摘要,判断特定新闻事件产生的影响等,提升分析师、研究员、投资经理的效率。星环分布式向量数据库Hippo提供数据动态更新的能力,对于实时插入/更新的数据,可以快速完成数据的加载和索引的构建,解决向量数据T+1的传统处理逻辑,满足实时动态变化数据的向量检索分析。一是能够把实时的知识、变化的信息放到大模型中,二是能够校正结果的准确性,极大地提升精准度,三是构建相应的知识图谱,增强大模型的能力。

2023-10-31 15:56:19 193

原创 一年一度的星环开发者奇妙之旅招募活动开始啦

来自国内外政府、金融、交通、能源、制造等行业的超过1500名嘉宾将出席会议,共同探讨最新的大数据技术发展趋势、国产化数据库、数字化转型、数据安全、数据要素与流通等热门话题。作为特邀嘉宾出席此次峰会,共同参与数据技术讨论和交流,大会组委会将为入选同学。

2023-05-09 17:10:26 162 1

原创 完整支持Oracle PL/SQL,星环科技KunDB高兼容性实现低成本国产化替代

KunDB为PL/SQL定义了极其精简、通用的TIR指令集,其中6类指令可用于PL的解释,8条指令可用PL/SQL中的游标、游标遍历、静态SQL、动态SQL的解释,这14条指令的组合,可覆盖PL/SQL语法范围内所有语法组合的解释。,具备可扩展、高并发、高可用、数据灾备等特性,满足企业关键业务处理、高并发查询、业务分布式改造、交易分析混合的数据中台等复杂场景,在金融、政务、能源、医疗、交通、教育等多个行业应用,为用户提供高性能、稳定可靠、经济实用、自主可控的国产化数据库产品。

2023-04-20 16:34:12 783

原创 【获奖案例巡展】信创先锋之星——云上贵州信创工程中心大数据中台

基于星环科技的大数据信创中台,开展了数据资产管理和数据服务建设,在数据规范化、标准化、资产化的轨道上,做到了统一入口、统一出口、集中管理、高效服务,构建成为敏捷创新的数据中台,有力支撑了地质灾害防治指挥平台项目、金融局数仓项目、共享交换平台项目、政务监管平台项目、核酸健康码项目、贵州省一张网项目等。该项目期望通过智能数仓的建设,实现基于全局数据的数据应用与共享,实现面向全省的全面的数据应用和共享服务,实现按需取用数据、按需使用服务、通过工具简单快捷实现各业务领域的数据应用需求。整体节点数为30节点。

2023-04-20 09:32:31 413

原创 【获奖案例巡展】信创先锋之星——甘肃省住房和城乡建设厅住建数据大脑

通过智慧住建大脑盘活数据资产,为各级住建部门提供数据汇聚、数据共享交换、数据治理等数据全生命周期服务,统一解决当前建设中存在的分散、孤立状态,打破信息“孤岛”,实现和提供跨地域、跨机构、跨业务领域的数据交换和资源共享服务。甘肃省住房和城乡建设厅在推进新型“智慧城市”建设,通过“智慧城市”及其相关领域的信息化建设,实现城市规划、建设、管理、服务能力提升,加快推进地方和部门“互联网+监管”系统建设并与国家“互联网+监管”系统对接联通,推动形成统一规范、信息共享、协同联动的全国“互联网+监管” 体系方面,

2023-04-19 14:15:37 452

原创 【获奖案例巡展】信创先锋之星——中信证券基于国产图数据库构建企业图谱的应用实践

系统的底层为一个多模的数据处理平台,该平台可以提供统一的数据操作、查询语言 SQL、统一的数据计算引擎、统一的分布式存储管理系统及统一的资源管理框架,满足利用一个多模异构平台处理多种数据的需求。基于星环科技StellarDB和Sophon KG重构了企业图谱及相关应用,该系统架构取代了依赖py2neo第三方插件的数据处理框架,使用星环科技大数据开发工具TDS产品,实现数据处理和调度的统一管理,将数据存储到大数据组件hive中,实现了历史数据的数据迁移,也安排了全量和增量的抽取调度任务。

2023-04-19 13:54:06 522

原创 内蒙农信携手星环科技建设农信大数据平台,激活金融业务创新

建立内蒙农信统一数据门户,包含外部数据管理、数据服务、客户标签管理、数据订阅与查询、实时计算、数据模型管理、指标管理及统一登录与统一权限管理功能共七个子系统,实现数据的发布、订阅和查找、数据模型、指标库和数据标签的管理、展示与维护,明细数据的查询与导出,便于数据管理和维护。大数据平台提供多种数据服务支撑业务系统及法人机构的数据需求,包括以数据订阅的方式支撑批量文件下发,以API的方式支撑实时数据的查询,API支持数据API、文件API、注册API以及聚合API等多种方式,满足不同业务场景的使用需求。

2023-04-19 10:47:45 546

原创 【获奖案例巡展】信创先锋之星——浙江省某市区视频能力中心

视频能力中心在项目建设过程中,已完成了平台级对接与联调工作,当前平台中的城市管理类算法产生的告警信息,可直接推送给相关部门,形成从事件识别、告警、推送、处置的整个业务通路的闭环。根据浙江省、市数字化改革总体部署,按照“统筹建设,分级部署”的原则,充分利用该市区数字化建设已有成果,运用数据、云计算等新型技术,通过建设集算法中台、视频解析平台、业务场景应用、指标评估等于一体的视频算法服务组件,构建该市区视频能力中心,实现资源申请、资源分配、算法调度、视频分析等功能,为全区视频分析应用提供能力支撑。

2023-04-19 10:00:25 1161

原创 【获奖案例巡展】科技向善之星——中航电梯5G+大数据管理平台

公司是贵州省唯一一家集电梯设计、生产、安装、改造、维保为一体的装备制造企业,产品有乘客电梯、观光电梯、载货电梯、汽车电梯等14个种类,生产车间购置了先进的机器人生产设备,引入“MES”、“ERP”信息管理系统,建成全自动化生产流水线,使生产部件达到高度的统一性,从而提高了产品质量。通过对电梯行业经营数据、生产数据、供应数据、营销数据、梯联网数据的集成、治理、融合、分析,实现了中航电梯的数字化集中管控模式,让决策有了全面的、精准的数据支撑。电梯安装过程涉及到特种作业施工,采用人工巡逻监管,人工成本高,

2023-04-18 15:20:05 438

原创 什么是存算分离架构?

随着硬件技术的快速进步,尤其是网络和存储设备的性能迅速提升,以及云计算厂商推动软硬件协同加速的云存储服务,越来越多的企业开始基于云存储来构建数据存储服务,或数据湖,因此就需要单独再建设一个独立的计算层来提供数据分析服务,这也就是存算分离架构(Disaggregated Storage and Compute Architecture)。本文介绍存算分离架构。— 背景介绍 —Apache Hadoop开启了分布式存储的浪潮,其采用的架构是“存算一体”架构,即在一个集群中实现计算和存储功能。

2023-04-18 10:09:34 1854

原创 支持多模型数据分析探索的存算分离湖仓一体架构解析(下)

此外,设计上Delta Lake并不提供主键,因此高并发的update/delete不如Hudi,也不提供类似Iceberg的元数据级别的查询优化,因此查询性能上可能不如Iceberg,但是Delta Lake强调的是结合Spark形成的流批一体的数据架构以及对机器学习类应用的原生API级别的支持,可适用的业务场景有很好的普遍性。在我们的设计中,快照不需要持久化,无需增加大量的物理存储,而是一个轻量级的、全局一致的逻辑概念,在事务处理中可以快速判断数据的某版本应当包含还是排除。

2023-04-17 14:36:28 233

原创 支持多模型数据分析探索的存算分离湖仓一体架构解析(上)

传统的企业数据湖大多是基于Hadoop或云存储来建设,为数据科学和机器学习任务提供半结构化和非结构化的数据能力。企业的BI和业务分析等需要数据的加工过程有严格的一致性保障,在分析过程中有优秀的SQL性能,而开源Hadoop或云存储并不具备这些能力,因此企业需要建设独立的数据仓库系统来支撑这类业务,从而就有了“数据湖+数据仓库”的混合架构。混合架构带来了更高的建设成本、管理成本和业务开发成本。

2023-04-17 13:50:33 312

原创 灵活、快捷、低运维成本的数据集成方法:数据联邦架构

在传统的企业数据运用中,企业使用多种系统,数据散落在各个存储设备中,数据分析需求往往是跨库的,数据入湖入仓在做分析会有安全问题,或影响业务系统性能。企业需要一种灵活、快捷、低运维成本的数据集成方法,就有了数据联邦架构。本文介绍数据联邦架构。

2023-04-17 10:36:47 670

原创 分析型数据库:分布式分析型数据库

本文介绍了分布式分析型数据库的架构原理,以及星环分析型数据库ArgoDB的核心能力。

2023-04-14 10:05:39 1529 2

原创 分析型数据库:MPP 数据库的概念、技术架构与未来发展方向

分析型数据库是数据库的一个分支,主要设计目标是存储、管理和分析数据,一般存储的数据类型多,时间维度长,主要配合企业的业务分析、商业智能等应用场景,驱动数据化的商业决策。由于数据分析一般涉及的数据量大,计算复杂,分析型数据库一般都是采用大规模并行计算或者分布式计算来提升它的数据处理能力。行业内从1984年开始推出基于多个关系数据库(Postgres为主)组成的MPP数据库方式来提升计算能力,代表性的产品有Teradata、Netezza、Vertica等。

2023-04-14 09:30:55 1406

原创 星环科技自研技术,加速大数据从持久化、统一化、资产化、业务化到生态化

从2013年成立开始,星环科技就专注于大数据基础技术与企业数据业务的更好结合,同时面对中国更为复杂的数据应用场景,研发了多种更贴合国内大数据应用需求的大数据管理技术,在大数据技术领域有多项基础技术突破。星环科技在坚持技术自研的道路上,创造了多个世界级的技术成果,本篇介绍星环科技大数据技术。

2023-04-13 14:24:52 449

原创 分布式场景下,Apache YARN、Google Kubernetes 如何解决资源管理问题?

所有的资源管理系统都需要解决资源的有效利用、任务的有效响应、调度策略的灵活配置这三个最基本问题。那么在分布式的场景下,YARN和Kubernetes是怎么解决的呢?本篇进行介绍。

2023-04-11 09:35:21 564

原创 分布式计算技术(下):Impala、Apache Flink、星环Slipstream

实时计算的发展历史只有十几年,它与基于数据库的计算模型有本质区别,实时计算是固定的计算任务加上流动的数据,而数据库大多是固定的数据和流动的计算任务,因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同,面向实时计算的数据架构也就发展起来。Transwarp Slipstream是一款通用的实时计算引擎,使用事件驱动和批处理统一的模型,在保证毫秒级别延迟的同时,帮助用户更高效、准确的进行数据集成,同时提供更复杂的分析功能,以帮助企业挖掘实时数据的价值。

2023-04-10 17:10:03 814

原创 分布式计算技术(上):经典计算框架MapReduce、Spark 解析

分布式计算技术按照其业务场景的不同可以分为离线计算和实时计算,本文介绍了两个具有代表性的离线计算技术MapReduce批处理引擎和Spark计算框架

2023-04-10 09:42:56 1668

原创 分布式存储技术(下):宽表存储与全文搜索引擎的架构原理、特性、优缺点解析

对于写密集型应用,每天写入量巨大,数据增长量无法预估,且对性能和可靠性要求非常高,普通关系型数据库无法满足其需求。对于全文搜索和数据分析这类对查询性能要求极高的场景也是如此。为了进一步满足上面两类场景的需求,有了宽表存储和搜索引擎技术,本文将对他们的架构、原理、优缺点做介绍。— 宽表存储—宽表存储最早来自Google的Bigtable论文,最初的定义为:A Bigtable is a sparse, distributed, persistent multidimensional s

2023-04-07 10:01:55 527

原创 分布式存储技术(上):HDFS 与 Ceph的架构原理、特性、优缺点解析

面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术,Ceph是能处理海量非结构化数据存储的对象存储技术,本文将对他们的架构原理、特性和优缺点做介绍。— 分布式文件系统HDFS—HDFS全称为Hadoop Distributed File System,在2006年由Doug Cutting发布了第一个版本,是运行在通用硬件上的分布式文件系统。它提供了一个高度

2023-04-06 16:16:59 1272

原创 分布式技术剖析

随着企业数字化进程的进一步深入,企业为了解决大数据的“4个V”问题,往往需要构建多个不同技术栈的大数据平台,其中不乏会使用到分布式相关的存储、计算、资源管理技术。分布式系统的出现解决了单机系统无法解决的成本、效率和高可用问题。那么什么是分布式技术?如何发展至今?主要包括哪几方面的技术?本文将对分布式计算技术、存储技术和资源管理技术做简单介绍。— 分布式技术的发展历程—谷歌在2003年发表了包括Google File System在内的著名的3篇论文,打开了分布式技术快速发展的大门。2006

2023-04-06 15:22:57 587

原创 如何创造数据资产价值?如何对内赋能业务运营,对外创造市场价值?

数据要素市场是国家十四五的一个重要的数字化方向,对于一些数据资源非常丰富,或者本身是一个平台型运营的企业,亦或者是专门为数据要素市场设立的各地方数据交易所等,他们的企业数据产品不仅可以对内提高运营效率,还可以直接对外部企业或生态内企业赋能,直接创造数据相关的收入,将数据价值化更加直接的体现出来,达到数据资本化阶段,甚至可以并入企业财务报表中。近年来行业也陆续摸索出来一些可行的落地实施方案,包括云上的数据沙箱和私有化的数据一体机,此外需要配套数据合规与隐私计算平台,解决数据流通中的数据合规问题。

2023-04-06 13:35:15 415

原创 企业数据平台建设的基石:构建统一的数据存算能力

随着企业数字化程度的逐步提高,数字化业务对数据管理的需求也持续深化。根据企业本身所处的数字化程度不同,我们将企业的数据平台的建设总结为五个阶段,本篇我们对统一的数据存储与算力做介绍。— 整体介绍—企业发展的战略目标就是为了更好地为企业和社会创造价值,而从数据中创造价值也是创造价值的重要一个环节。数据平台的建设需要能够支撑起这个总体目标,同时结合企业自身情况实现一个可持续演进的技术架构。互联网企业引领着数据时代,以Google、Facebook、Amazon为代表的企业已经完成了从

2023-04-06 11:22:05 523

原创 企业如何两步实现数据资产化?

数据管理人员可通过资产导览的方式或全局搜索的方式查找希望引用的资产,打通资产到数据商城的关联,未来将通过数据需求,可以连通数据的开发、管控、服务的各管理接入点,通过智能化的资产打标、评价算法等功能以提升管理效率。这个阶段的主要目标是提供给业务方可以直接使用的数据资产。通过四个能力域的功能模组的不断完善,帮助企业培养起从一般职员到决策者都能基于数字化能力完成企业日常运营的思维模式,只有数据的使用便利、数据的内容详实,数据的结论准确、数据的应用全面,才能将变革成为习惯,这才是企业数字化转型成功的核心必要条件。

2023-04-06 09:26:28 722

原创 数据仓库、数据集市、数据湖,你的企业更适合哪种数据管理架构?

到了大数据时代,虽然企业数据仓库和数据湖在各个企业都已经普及,但是每个部门自身也有对业务数据进行处理分析统计的需求,而且不涉及到和其他数据交互,因此特定的部门不希望在数据量大的数据仓库进行操作(因为操作慢,而且可能影响到其他人处理数据),所以建立一个新的存储系统,把数据仓库里关联自己的数据存储到这个系统,本质上算是数据仓库的一个子集。数据湖在设计的时候,需要充分考虑如何提供给更多的数据需求者来自助服务,用户可以在数据湖上发现数据、分析数据、改进数据以及最终贡献数据,从而形成一个从数据到价值链路的闭环。

2023-04-04 16:58:38 1761 1

原创 企业级统一数据平台建设思路

数据平台和数据应用平台可以分开建设,也可以统一建设。而数字化转型的一个核心就是以数据为抓手来打通各个不同的业务,以数据驱动辅助经验主导的流程来辅助业务,因此需要企业建成一个统一的、可共享的数据平台,推进建设内部业务的统一数据化,为企业管理和决策提供数据基础与分析能力保障 ,帮助企业落地数字化战略。中间层是企业的数据业务中心,也是最核心的部分,它包含企业沉淀的各种有效的业务服务和数据服务,业务按照DDD的原则进行服务划分,数据都做了有效的建模形成数据资产,这可能包含数据仓库、数据湖或者数据中台的建设;

2023-04-04 15:53:18 569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除