自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(539)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 机器学习 专栏

随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。

2024-03-30 13:11:30 27672

原创 数据仓库实战教程

以hadoop 作为基础生态,从0到进行数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。

2020-12-28 09:19:07 81111 18

原创 Java集合汇总篇

一. 集合框架Java 集合框架一些列的接口和类来实现很多常见的数据结构和算法,例如 LinkedList 就是集合框架提供的实现了双向链表的数据结构,关于这一篇文章建议大家收藏,我会不断地完善和扩充它的内容,例如最下面的系列文章我以后也会对它进行不断的更新集合框架的接口集合框架提供了很多接口,这些接口都包含了特定的方法来实现对集合上的特定操作)我们将要学习这些接口以及子接口和它们的各种实现类,在开始之前我们先简单学习一下这些广泛运用的接口,可以看到整个集合框架,总共有三个顶级接口Collecti

2020-12-13 20:25:05 82389 3

原创 Doris 数据集成 Kafka

这是我们Doris 数据集成篇的第二篇,前面我们介绍过通过 Catalog进行集成的例子目前公司的很多数据服务都开始使用Doris 了,目前使用下来感觉还是很方便的,比起Hadoop 那一套少了很多运维的成本,而且整体的效率也不错,现在也要把ELK 那一套日志分析的替换掉,后面日志分析也走Doris。关于如何使用Doris做日志分析,可以参考之前的文章,不过第一步也不是日志分析,而是如何对接Kafka ,因为目前日志数据是在kafka 里的,这里我调研了一下使用Flink 和 Doris 的。

2024-04-26 14:43:08 861

原创 大模型实战—Llama3-8B 中文微调

Llama3是目前开源大模型中最优秀的模型之一,但是原生的Llama3模型训练的中文语料占比非常低,因此在中文的表现方便略微欠佳!本教程就以Llama3-8B-Instruct开源模型为模型基座,通过开源程序LLaMA-Factory来进行中文的微调,提高Llama3的中文能力!

2024-04-25 09:14:39 2184

原创 数仓建模—企业数字化建设

信息化是数字化的基础,数字化是信息化的高阶阶段。信息化解决的是效率问题,而数字化则是业务价值导向,也就是通常说的给业务赋能。数字化必定包含信息化且不能否定信息化,同时数字化转型一定要返回到业务本身,因为数字化转型本质上是业务问题,其与信息化又彼此关联、彼此驱动。

2024-04-24 14:14:20 3047

原创 数仓建模—数据语义层

如今,企业产生大量数据,需要以正确的方式进行分析才能做出重要决策。数据可能来自多个来源并采用不同的格式,这使得清楚地了解其含义和重要性成为一项挑战。这就是语义层的用武之地。语义层存在于数据仓库和最终用户使用的应用程序之间。它为用户提供了简化且一致的数据视图,无论其基础数据源的复杂性如何。该逻辑层有助于映射物理数据结构以创建概念数据模型。它定义了数据元素之间的所有规则和关系,并以业务术语提供了数据的通用词汇表。然后,用户可以轻松地与数据进行交互,而无需了解其数据源的技术知识。

2024-04-23 17:35:54 3951

原创 数仓建模—大数据建模

综上所述,大数据建模是一个复杂且多样化的过程,需要结合业务需求和技术能力来设计和实施有效的数据模型。大数据建模其实本质上是为了解决数据量大的问题,所以我们要将数据量大、数据价值密度低、数据来源多样等特点考虑进去,但是我们在使用大数据工具建设数仓的时候还是会使用到维度建模,这是因为维度建模本身通过维度冗余,可以减少连接操作,提高查询性能,和大数据建模的思维相辅相成。

2024-04-23 09:57:36 4427

原创 大模型实战—用户反馈分析

大模型实战—用户反馈概要提取

2024-04-19 17:19:46 8969

原创 数仓建模—物理数据模型

物理数据模型指定如何在数据库中构建数据模型。它概述了所有表结构,包括列名、数据类型、列约束、主键和外键以及相关表列的索引、表之间的关系、存储过程和视图。创建物理数据模型的责任通常由数据库管理员和开发人员承担。信息系统和软件应用程序严重依赖于与物理数据库的交互。物理数据模型需要正确设计和实现。一旦现有应用程序的数据被插入到数据库中,修改物理数据模型就具有挑战性。

2024-04-19 09:08:18 9040

原创 数仓建模—逻辑数据模型

在我们深入研究 LDM 之前,我们先来了解一下什么是数据模型以及数据建模根据IBM 的说法,它是“创建整个信息系统或部分信息系统的可视化表示,以传达数据点和结构之间的连接的过程”。能够可视化数据结构之间的这些关系使组织能够确定哪些业务领域需要改进。数据模型分为三种类型:概念型、逻辑型和物理型。通常,数据架构师和业务相关者是创建概念数据模型的用户。构建这些类型的目的是组织和定义业务概念和规则。它们具有不同类型的子模型,例如语义数据模型和业务数据模型。其实我们在数仓建模—建模流程。

2024-04-18 11:17:58 9836

原创 数仓建模—数据模型

在详细探讨数据模型之前,我们需要明确什么是数据。从本质上讲,数据由收集、存储、分析和用于制定未来决策的事实、数字和统计数据组成。在当今的数字世界中,我们不断生成大量此类数据 - 如果它要具有任何功能,就需要以有效的方式进行处理。这就是数据模型的用武之地。数据模型是指用于组织和管理数据库或信息系统中的数据的数据结构的抽象表示。它定义了数据元素(代表现实世界的对象)之间的关系以及它们的组织、存储和检索方式。想象一下数据模型下的构建计划会很有帮助,整个系统将在此基础上构建。

2024-04-18 11:14:18 9760

原创 数仓建模—建模方法论

上述的这些方法都有自己的优点和局限性,在创建自己的数据仓库模型的时候,可以参考使用上述的三种数据仓库得建模方法,在各个不同阶段采用不同的方法,从而能够保证整个数据仓库建模的质量。方法论仅仅停留在理论层面上,落地实现的才真正决定了数仓设计的好坏,当然再好的方法,只有在合适的阶段使用,才有意义,才能发挥它最大的价值Inmon 方法的强调的是“数据集市”, Kimball 提倡的“集中式的数据仓库”。数据集市是将数据分为各类主题,对应到各个业务部门,以提供信息查询、报表生成。

2024-04-17 16:32:56 10203

原创 数仓建模—数据架构

一个成功的数据架构系统确保数据得到正确维护,并支持公司的业务需求。为了实现这一目标,我们需要了解数据架构的组件是如何协同工作的,并实现某些原则或标准以确保成功在本文中,我们将重点讨论现代数据架构。让我们看看它的基本模式:你可能熟悉的数据库、应用程序和工具构成了大型数据架构系统的不同组件。每个组件的目的是什么?它们如何相互作用?让我们把它一块一块地分解。数据架构将集成、质量改进和成功的数据交付结合在一起。了解数据收集过程以及数据如何在组织内流动使未来的业务决策与基础数据战略保持一致。

2024-04-17 14:10:48 10263

原创 WizardLM-2大模型 重磅来袭

微软最近推出了 WizardLM 2,这是一个突破性的大型语言模型系列,突破了人工智能的界限。这些模型展示了复杂聊天、多语言理解、推理和代理功能方面的显着改进,超越了其前身 WizardLM 和其他领先的开源模型。

2024-04-17 09:42:54 10385

原创 数仓建模—建模方法论之Data Vault 建模

按照Dan Linstedt的定义,Data Vault模型是面向细节的、可追踪历史的、一组有连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点,其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求,是专门针对企业级数据仓库需要的一套建模方法。Data Vault模型只按照业务数据的原始状态存储数据,不做任何过滤、清洗、转换,比如:同一客户在不同系统有不同地址,Data Vault模型会存储多个不同版本的客户地址数据。

2024-04-03 17:28:34 21932

原创 dolphinscheduler 的使用

dolphinschedulerder 不论是在执行datax 或者sql 或者是shell 任务中,都会生成一个中间的配置文件,然后再去执行这个配置文件,但是有时候如果任务报错,或者出现什么问题的时候,你想去看一下这个配置文件,你会发现文件被删除了,这是因为我们不是以开发者模式执行的,当然这个配置默认也是false ,当你配置成true 的时候,你在日志的最后就会看到类似的输出。除此之外,我们要在这里选择任务流,这样就 确定了任务所属于所属的任务流了,选择了任务流之后我们就可以选择依赖了。

2024-04-03 10:46:55 21604

原创 dolphinscheduler 安装部署

调度软件其实在整个大数据开发中,占有举足轻重的地位,有了数据平台,有了数据仓库,那就需要一个系统来调度和管理数仓的任务,因此调度系统的地位可见重要。一个调度软件的稳定性就决定了我们的数据能不能按时产出,往往数据仓库的的任务都是有依赖,从严格意义来讲就是一个无环的大蜘蛛网(有向无环图简称 DAG),所以要管理这么庞大的任务正常运行,就需要一个好的调度系统。

2024-04-01 13:10:03 22956

原创 数仓建模—建模方法论之实体-关系(Entity-Relationship)建模

实体是现实世界中可区分的、有实际存在意义的事物或对象,如人、物、地点、事件等。在ER模型中,实体通常用矩形框表示,矩形框内写明实体名。每个实体都有属性,属性描述了实体的特征或属性。ER模型是一种用于描述现实世界中实体、属性和关系之间关系的数据模型。通过ER模型,可以直观地表示数据结构,帮助分析和设计数据库和系统。ER模型提供了一种有效的方式来理解和描述现实世界中的复杂问题,并在设计数据库时提供了指导。

2024-03-31 21:18:44 23271

原创 大模型web服务部署—open-webui

我们可以点击对话框的内容,选择文件上传,然后就可以让大模型基于上传文件的内容,做一些对话,这里我们主要让大模型总结一下这本书的主要内容,这其实也就是为什么我们要本地部署,不然我们也不能上传公司的文件,因为涉及泄密。这个项目提供了多种部署方式,这里我们使用docker 进行部署,如果你的web 服务和你的模型服务在同一个节点上,可以使用下面的命令。当上面的命令执行完成后,我们可以查看一下容器有没有起来,可以看到我们的容器已经成功起启动了。当然我们可以进入设置页面的模型菜单,可以选择下载模型或者删除模型。

2024-03-31 12:55:05 23400

原创 StructStreaming Batch mode和Continuous mode

今天这一讲,我们学习了 Structured Streaming 中两种不同的计算模型——Batch mode 与 Continuous mode。只有了解了它们各自在吞吐量、延迟性和容错等方面的特点,在面对日常工作中不同的流计算场景时,我们才能更好地做出选择。在 Batch mode 下,Structured Streaming 会将数据流切割为一个个的 Micro-batch。

2024-03-30 09:26:07 23868

原创 Spark 配置项

首先,对于 CPU 类配置项,我们要重点理解并行度与并行计算任务数的区别。并行度从数据的角度出发,明确了数据划分的粒度,并行度越高,数据粒度越细,数据越分散,CPU 资源利用越充分,但同时要提防数据粒度过细导致的调度系统开销。并行计算任务数则不同,它从计算的角度出发,强调了分布式集群在任一时刻并行处理的能力和容量。并行度与并行计算任务数之间互相影响、相互制约。其次,对于内存类配置项,我们要知道怎么设置它们来平衡不同内存区域的方法。在平衡堆外与堆内内存的时候,我们要重点考察数据模式。

2024-03-30 09:03:24 23763

原创 Flink CDC 同步数据到Doris

实时同步支持批量同步支持路由,和一些自定义选项支持schema 变更支持自动建表。

2024-03-29 21:04:35 23033

原创 Doris案例篇—Doris 在思必驰的应用实践

Apache Doris 支持构建离线+实时统一数仓,一个 ETL 脚本即可支持实时和离线数仓,大大缩短开发周期,降低存储成本,避免了离线和实时指标不一致等问题。Apache Doris 1.1.x 版本开始全面支持向量化计算,较之前版本查询性能提升 2-3 倍。经测试,Apache Doris 1.1.x 版本在宽表场景的查询性能已基本与 ClickHouse 持平。功能强大,不依赖其他组件。

2024-03-29 08:56:26 22312

原创 Doris在日志分析中的应用

使用basic auth进行 HTTP 鉴权,用命令来计算设置,指定数据格式为 JSON设置,指定每行一个 JSON设置,指定一次写入一个分桶目前建议写入客户端一个 Batch 100MB ~ 1GB,后续版本会通过服务端 Group Commit 降低客户端 Batch 大小curl \查询Doris 支持标准 SQL,可以通过 MySQL客 户端或者通过 JDBC 等方式连接到集群,然后执行 SQL 进行查询。下面是日志分析场景中,常见的几种查询。查看最新的 10 条数据。

2024-03-29 08:51:12 22102

原创 Spark GraphX 算法实例

利用GraphX自带的社会网络数据集实例,用户集合数据集存在/usr/local/Spark/data/graphx/users.txt,用户关系数据集存在/usr/local/Spark/data/graphx/followers.txt。静态的PageRank算法运行在固定的迭代次数,动态的PageRank算法运行直到整个排名收敛(eg:通过限定可容忍的值来停止迭代)。PageRank同样可以在图中测量每个顶点的重要性,假设存在一条从顶点u到顶点v的边,就代表顶点u对顶点v的支持。

2024-03-28 07:36:28 22340

原创 Spark GraphX 图操作

这里只列出Graph中常用的操作函数API,仍有一些高级函数没有列出,如果需要还请参考Spark API文档。

2024-03-28 07:35:29 22105

原创 Doris 如何基于自增列满足高效字典编码等典型场景需求

在使用自增列时,需要在建[ CREATE-TABLE 时为对应的列添加属性。若要手动指定自增列起始值,可以在建表时通过语句指定,若未指定,则默认起始值为 1。创建一个 Dupliciate 模型表,其中一个 Key 列为自增列自增列也可以用于 Value 列,下方语句示例创建 Dupliciate 模型表,其中一个 Value 列是自增列自增列支持 Duplicate Key 和 Unique Key 两种模型,Unique Key 模型的使用与 Duplicate Key 模型类似,在此不再赘述。

2024-03-27 20:46:59 21488

原创 Doris 数据集成 Catalog

在创建catalog时,在properties 中指定刷新时间参数metadata_refresh_interval_sec ,以秒为单位,若在创建catalog时设置了该参数,FE 的master节点会根据参数值定时刷新该catalog。新的 Multi-Catalog 功能在原有的元数据层级上,新增一层Catalog,构成 Catalog -> Database -> Table 的三层元数据层级。默认情况下,外部数据源的元数据变动,如创建、删除表,加减列等操作,不会同步给 Doris。

2024-03-27 20:36:14 21560

原创 Spark SQL— Catalyst 优化器

优化一词是指修改系统以使其工作更高效或使用更少资源的过程。Spark SQL是 Apache Spark 中技术含量最高的组件。Spark SQL 处理 SQL 查询和 DataFrame API。Spark SQL 的深处有一个催化剂优化器。Catalyst 优化允许一些高级编程语言功能,使您可以构建可扩展的查询优化器。一种名为 Catalyst 的新型可扩展优化器出现了,用于实现 Spark SQL。该优化器基于**Scala中的函数式编程构造。Catalyst Optimizer 支持。

2024-03-27 07:39:52 21985

原创 Spark Streaming

Spark Streaming 是个批处理的流式(实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库等数据持久化系统。

2024-03-27 07:37:54 22318

原创 DataX 源码改造支持Mysql 8.X

这个错误在GitHub 上有人提到了,如果你的maven版本太低可以尝试升级,但是maven 3.9.X 也不行,太新了,因为与之匹配的。这里我们只是针对mysql 的读写操作进行了改动,所以打包的时候我们可以将那些其他没有改动的模块注释掉,不需要打包,这里报了一个错误。和我们在idea 打包后的进行对比,发现我们可以直接将这个文件夹下的全部文件进行替换,可以打包。这里我们克隆源代码,在IDEA 中打开,修改mysql 的依赖的版本,如下图所示。所这里我是限制了插件的版本,这下就可以打包成功了。

2024-03-26 20:01:47 20640

原创 Spark RDD、DataFrame和DataSet的区别

在比较这三者的区别之前,先看看他们各自的定义是什么。RDD是一种弹性分布式数据集,是一种只读分区数据。它是spark的基础数据结构,具有内存计算能力、数据容错性以及数据不可修改特性。Dataframe也是一种不可修改的分布式数据集合,它可以按列查询数据,类似于关系数据库里面的表结构。可以对数据指定数据模式(schema)。Dataset是DataFrame的扩展,它提供了类型安全,面向对象的编程接口。也就是说DataFrame是Dataset的一种特殊形式。

2024-03-26 07:33:12 22339

原创 Spark SQL 数据源

Spark SQL支持读取很多种数据源,比如parquet文件,json文件,文本文件,数据库等。先把people.json导入到hdfs的tmp目录下。

2024-03-26 07:31:03 21203

原创 Spark SQL DataFrame

DataFrame是一个分布式数据集合,它被组织成命名列。从概念上讲,它相当于具有良好优化技术的关系表。DataFrame可以从不同来源的数组构造,例如Hive表,结构化数据文件,外部数据库或现有RDD。这个API是为现代大数据和数据科学应用程序设计的,Spark SQL的DataFrame设计灵感来自Python的Pandas和R语言的DataFrame数据结构。

2024-03-26 07:30:27 20975

原创 Apache SeaTunnel和SeaTunnel Web 安装部署

这里我们看一下SeaTunnel 的安装部署,早期的SeaTunnel 是没有web 页面的,只能在命令行里使用,现在SeaTunnel 已经有了web 端了,这就降低了我们的使用门槛。在下载之前,可以对config/plugin_config进行编辑,注释掉不需要的connector,可以添加需要的connector,命令后,这些jar 包都被安装到了默认的仓库去了,所以说明我们直接去改这个脚本其实是有问题的,其实你可以看我们上面的截图。其实这个和上面都有同样的问题,所以我们的完整命令如下。

2024-03-25 20:21:03 20502

原创 Apache SeaTunnel 初识

SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。本质上,SeaTunnel 不是对 Saprk 和 Flink 的内部修改,而是在 Spark 和 Flink 的基础上做了一层包装。作为SeaTunnel的默认引擎,它支持高吞吐量、低延迟、强一致的同步作业运行,更快、更稳定、更节省资源、易于使用。SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。

2024-03-25 13:12:14 20503

原创 Spark SQL

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。

2024-03-25 08:58:35 23683

原创 Spark 检查点(checkpoint)

Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即它可以将数据和元数据保存到检查指向目录中。因此,在程序发生崩溃的时候,Spark可以恢复此数据,并从停止的任何地方开始。开发人员可以是来方法来设置检查点。在使用检查点之前,必须使用方法设置检查点目录。所以其实我们的checkpoint主要用于Spark Streaming任务。

2024-03-25 08:55:59 20522

原创 Spark Streaming DStream

即,中文叫做,Spark Streaming提供的一种高级抽象,代表了一个持续不断的数据流。DStream可以通过输入数据源来创建,比如Kafka、Flume,也可以通过对其他DStream应用高阶函数来创建,比如map、reduce、join、window。DStream的内部,其实是一系列持续不断产生的RDD,RDD是Spark Core的核心抽象,即不可变的,分布式的数据集。DStream中的每个RDD都包含了一个时间段内的数据。

2024-03-24 20:43:40 20218

数据仓库理论与实战(适用于从事数仓方向的小伙伴)

数据仓库理论与实战(适用于从事数仓方向的小伙伴)

2022-02-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除