不二人生-CSDN博客

原创机器学习专栏

随着现在以ChatGPT为代表的大模型发展，人工智能、机器学习、大模型这些词逐渐火热起来了，所以是时候了解一下这些东西了，可能有的人会说不会太晚了吗，其实不晚，因为我们从来都是技术的创造者，只是技术的使用者而已，在一定程度上来说，及时的学会使用，对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕，必然有新的生产力出现，否则整个社会的发展就陷入了停滞，其实我们可以看到现在的AI 发展的这么快，每一轮的技术发展都会有一二十年的生命周期，我们只能说传统互联网走到了夕阳西下的时候。

2024-03-30 13:11:30 27672

原创数据仓库实战教程

以hadoop 作为基础生态，从0到进行数仓建设，主要分为基础篇和实战篇两部分，基础篇主要是各种组件的学习和案例，实战篇主要是三家企业的数仓设计案例，最后是扩展篇主要是实时数仓。

2020-12-28 09:19:07 81111 18

原创 Java集合汇总篇

一. 集合框架Java 集合框架一些列的接口和类来实现很多常见的数据结构和算法，例如 LinkedList 就是集合框架提供的实现了双向链表的数据结构，关于这一篇文章建议大家收藏，我会不断地完善和扩充它的内容，例如最下面的系列文章我以后也会对它进行不断的更新集合框架的接口集合框架提供了很多接口，这些接口都包含了特定的方法来实现对集合上的特定操作)我们将要学习这些接口以及子接口和它们的各种实现类，在开始之前我们先简单学习一下这些广泛运用的接口，可以看到整个集合框架，总共有三个顶级接口Collecti

2020-12-13 20:25:05 82389 3

原创 Doris 数据集成 Kafka

这是我们Doris 数据集成篇的第二篇，前面我们介绍过通过 Catalog进行集成的例子目前公司的很多数据服务都开始使用Doris 了，目前使用下来感觉还是很方便的，比起Hadoop 那一套少了很多运维的成本，而且整体的效率也不错，现在也要把ELK 那一套日志分析的替换掉，后面日志分析也走Doris。关于如何使用Doris做日志分析，可以参考之前的文章，不过第一步也不是日志分析，而是如何对接Kafka ，因为目前日志数据是在kafka 里的，这里我调研了一下使用Flink 和 Doris 的。

2024-04-26 14:43:08 861

原创大模型实战—Llama3-8B 中文微调

Llama3是目前开源大模型中最优秀的模型之一，但是原生的Llama3模型训练的中文语料占比非常低，因此在中文的表现方便略微欠佳！本教程就以Llama3-8B-Instruct开源模型为模型基座，通过开源程序LLaMA-Factory来进行中文的微调，提高Llama3的中文能力！

2024-04-25 09:14:39 2184

原创数仓建模—企业数字化建设

信息化是数字化的基础，数字化是信息化的高阶阶段。信息化解决的是效率问题，而数字化则是业务价值导向，也就是通常说的给业务赋能。数字化必定包含信息化且不能否定信息化，同时数字化转型一定要返回到业务本身，因为数字化转型本质上是业务问题，其与信息化又彼此关联、彼此驱动。

2024-04-24 14:14:20 3047

原创数仓建模—数据语义层

如今，企业产生大量数据，需要以正确的方式进行分析才能做出重要决策。数据可能来自多个来源并采用不同的格式，这使得清楚地了解其含义和重要性成为一项挑战。这就是语义层的用武之地。语义层存在于数据仓库和最终用户使用的应用程序之间。它为用户提供了简化且一致的数据视图，无论其基础数据源的复杂性如何。该逻辑层有助于映射物理数据结构以创建概念数据模型。它定义了数据元素之间的所有规则和关系，并以业务术语提供了数据的通用词汇表。然后，用户可以轻松地与数据进行交互，而无需了解其数据源的技术知识。

2024-04-23 17:35:54 3951

原创数仓建模—大数据建模

综上所述，大数据建模是一个复杂且多样化的过程，需要结合业务需求和技术能力来设计和实施有效的数据模型。大数据建模其实本质上是为了解决数据量大的问题，所以我们要将数据量大、数据价值密度低、数据来源多样等特点考虑进去，但是我们在使用大数据工具建设数仓的时候还是会使用到维度建模，这是因为维度建模本身通过维度冗余,可以减少连接操作，提高查询性能，和大数据建模的思维相辅相成。

2024-04-23 09:57:36 4427

原创大模型实战—用户反馈分析

大模型实战—用户反馈概要提取

2024-04-19 17:19:46 8969

原创数仓建模—物理数据模型

物理数据模型指定如何在数据库中构建数据模型。它概述了所有表结构，包括列名、数据类型、列约束、主键和外键以及相关表列的索引、表之间的关系、存储过程和视图。创建物理数据模型的责任通常由数据库管理员和开发人员承担。信息系统和软件应用程序严重依赖于与物理数据库的交互。物理数据模型需要正确设计和实现。一旦现有应用程序的数据被插入到数据库中，修改物理数据模型就具有挑战性。

2024-04-19 09:08:18 9040

原创数仓建模—逻辑数据模型

在我们深入研究 LDM 之前，我们先来了解一下什么是数据模型以及数据建模根据IBM 的说法，它是“创建整个信息系统或部分信息系统的可视化表示，以传达数据点和结构之间的连接的过程”。能够可视化数据结构之间的这些关系使组织能够确定哪些业务领域需要改进。数据模型分为三种类型：概念型、逻辑型和物理型。通常，数据架构师和业务相关者是创建概念数据模型的用户。构建这些类型的目的是组织和定义业务概念和规则。它们具有不同类型的子模型，例如语义数据模型和业务数据模型。其实我们在数仓建模—建模流程。

2024-04-18 11:17:58 9836

原创数仓建模—数据模型

在详细探讨数据模型之前，我们需要明确什么是数据。从本质上讲，数据由收集、存储、分析和用于制定未来决策的事实、数字和统计数据组成。在当今的数字世界中，我们不断生成大量此类数据 - 如果它要具有任何功能，就需要以有效的方式进行处理。这就是数据模型的用武之地。数据模型是指用于组织和管理数据库或信息系统中的数据的数据结构的抽象表示。它定义了数据元素（代表现实世界的对象）之间的关系以及它们的组织、存储和检索方式。想象一下数据模型下的构建计划会很有帮助，整个系统将在此基础上构建。

2024-04-18 11:14:18 9760

原创数仓建模—建模方法论

上述的这些方法都有自己的优点和局限性，在创建自己的数据仓库模型的时候，可以参考使用上述的三种数据仓库得建模方法，在各个不同阶段采用不同的方法，从而能够保证整个数据仓库建模的质量。方法论仅仅停留在理论层面上，落地实现的才真正决定了数仓设计的好坏，当然再好的方法，只有在合适的阶段使用，才有意义，才能发挥它最大的价值Inmon 方法的强调的是“数据集市”， Kimball 提倡的“集中式的数据仓库”。数据集市是将数据分为各类主题，对应到各个业务部门，以提供信息查询、报表生成。

2024-04-17 16:32:56 10203

原创数仓建模—数据架构

一个成功的数据架构系统确保数据得到正确维护，并支持公司的业务需求。为了实现这一目标，我们需要了解数据架构的组件是如何协同工作的，并实现某些原则或标准以确保成功在本文中，我们将重点讨论现代数据架构。让我们看看它的基本模式：你可能熟悉的数据库、应用程序和工具构成了大型数据架构系统的不同组件。每个组件的目的是什么？它们如何相互作用？让我们把它一块一块地分解。数据架构将集成、质量改进和成功的数据交付结合在一起。了解数据收集过程以及数据如何在组织内流动使未来的业务决策与基础数据战略保持一致。

2024-04-17 14:10:48 10263

原创 WizardLM-2大模型重磅来袭

微软最近推出了 WizardLM 2，这是一个突破性的大型语言模型系列，突破了人工智能的界限。这些模型展示了复杂聊天、多语言理解、推理和代理功能方面的显着改进，超越了其前身 WizardLM 和其他领先的开源模型。

2024-04-17 09:42:54 10385

原创数仓建模—建模方法论之Data Vault 建模

按照Dan Linstedt的定义，Data Vault模型是面向细节的、可追踪历史的、一组有连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点，其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求，是专门针对企业级数据仓库需要的一套建模方法。Data Vault模型只按照业务数据的原始状态存储数据，不做任何过滤、清洗、转换，比如：同一客户在不同系统有不同地址，Data Vault模型会存储多个不同版本的客户地址数据。

2024-04-03 17:28:34 21932

原创 dolphinscheduler 的使用

dolphinschedulerder 不论是在执行datax 或者sql 或者是shell 任务中，都会生成一个中间的配置文件，然后再去执行这个配置文件，但是有时候如果任务报错，或者出现什么问题的时候，你想去看一下这个配置文件，你会发现文件被删除了，这是因为我们不是以开发者模式执行的，当然这个配置默认也是false ,当你配置成true 的时候，你在日志的最后就会看到类似的输出。除此之外，我们要在这里选择任务流，这样就确定了任务所属于所属的任务流了，选择了任务流之后我们就可以选择依赖了。

2024-04-03 10:46:55 21604

原创 dolphinscheduler 安装部署

调度软件其实在整个大数据开发中，占有举足轻重的地位，有了数据平台，有了数据仓库，那就需要一个系统来调度和管理数仓的任务，因此调度系统的地位可见重要。一个调度软件的稳定性就决定了我们的数据能不能按时产出，往往数据仓库的的任务都是有依赖，从严格意义来讲就是一个无环的大蜘蛛网（有向无环图简称 DAG），所以要管理这么庞大的任务正常运行，就需要一个好的调度系统。

2024-04-01 13:10:03 22956

原创数仓建模—建模方法论之实体-关系(Entity-Relationship)建模

实体是现实世界中可区分的、有实际存在意义的事物或对象，如人、物、地点、事件等。在ER模型中，实体通常用矩形框表示，矩形框内写明实体名。每个实体都有属性，属性描述了实体的特征或属性。ER模型是一种用于描述现实世界中实体、属性和关系之间关系的数据模型。通过ER模型，可以直观地表示数据结构，帮助分析和设计数据库和系统。ER模型提供了一种有效的方式来理解和描述现实世界中的复杂问题，并在设计数据库时提供了指导。

2024-03-31 21:18:44 23271

原创大模型web服务部署—open-webui

我们可以点击对话框的内容，选择文件上传，然后就可以让大模型基于上传文件的内容，做一些对话，这里我们主要让大模型总结一下这本书的主要内容，这其实也就是为什么我们要本地部署，不然我们也不能上传公司的文件，因为涉及泄密。这个项目提供了多种部署方式，这里我们使用docker 进行部署，如果你的web 服务和你的模型服务在同一个节点上，可以使用下面的命令。当上面的命令执行完成后，我们可以查看一下容器有没有起来，可以看到我们的容器已经成功起启动了。当然我们可以进入设置页面的模型菜单，可以选择下载模型或者删除模型。

2024-03-31 12:55:05 23400

原创 StructStreaming Batch mode和Continuous mode

今天这一讲，我们学习了 Structured Streaming 中两种不同的计算模型——Batch mode 与 Continuous mode。只有了解了它们各自在吞吐量、延迟性和容错等方面的特点，在面对日常工作中不同的流计算场景时，我们才能更好地做出选择。在 Batch mode 下，Structured Streaming 会将数据流切割为一个个的 Micro-batch。

2024-03-30 09:26:07 23868

原创 Spark 配置项

首先，对于 CPU 类配置项，我们要重点理解并行度与并行计算任务数的区别。并行度从数据的角度出发，明确了数据划分的粒度，并行度越高，数据粒度越细，数据越分散，CPU 资源利用越充分，但同时要提防数据粒度过细导致的调度系统开销。并行计算任务数则不同，它从计算的角度出发，强调了分布式集群在任一时刻并行处理的能力和容量。并行度与并行计算任务数之间互相影响、相互制约。其次，对于内存类配置项，我们要知道怎么设置它们来平衡不同内存区域的方法。在平衡堆外与堆内内存的时候，我们要重点考察数据模式。

2024-03-30 09:03:24 23763

原创 Flink CDC 同步数据到Doris

实时同步支持批量同步支持路由，和一些自定义选项支持schema 变更支持自动建表。

2024-03-29 21:04:35 23033

原创 Doris案例篇—Doris 在思必驰的应用实践

Apache Doris 支持构建离线+实时统一数仓，一个 ETL 脚本即可支持实时和离线数仓，大大缩短开发周期，降低存储成本，避免了离线和实时指标不一致等问题。Apache Doris 1.1.x 版本开始全面支持向量化计算，较之前版本查询性能提升 2-3 倍。经测试，Apache Doris 1.1.x 版本在宽表场景的查询性能已基本与 ClickHouse 持平。功能强大，不依赖其他组件。

2024-03-29 08:56:26 22312

原创 Doris在日志分析中的应用

使用basic auth进行 HTTP 鉴权，用命令来计算设置，指定数据格式为 JSON设置，指定每行一个 JSON设置，指定一次写入一个分桶目前建议写入客户端一个 Batch 100MB ~ 1GB，后续版本会通过服务端 Group Commit 降低客户端 Batch 大小curl \查询Doris 支持标准 SQL，可以通过 MySQL客户端或者通过 JDBC 等方式连接到集群，然后执行 SQL 进行查询。下面是日志分析场景中，常见的几种查询。查看最新的 10 条数据。

2024-03-29 08:51:12 22102

原创 Spark GraphX 算法实例

利用GraphX自带的社会网络数据集实例，用户集合数据集存在/usr/local/Spark/data/graphx/users.txt，用户关系数据集存在/usr/local/Spark/data/graphx/followers.txt。静态的PageRank算法运行在固定的迭代次数，动态的PageRank算法运行直到整个排名收敛(eg:通过限定可容忍的值来停止迭代)。PageRank同样可以在图中测量每个顶点的重要性，假设存在一条从顶点u到顶点v的边，就代表顶点u对顶点v的支持。

2024-03-28 07:36:28 22340

原创 Spark GraphX 图操作

这里只列出Graph中常用的操作函数API，仍有一些高级函数没有列出，如果需要还请参考Spark API文档。

2024-03-28 07:35:29 22105

原创 Doris 如何基于自增列满足高效字典编码等典型场景需求

在使用自增列时，需要在建[ CREATE-TABLE 时为对应的列添加属性。若要手动指定自增列起始值，可以在建表时通过语句指定，若未指定，则默认起始值为 1。创建一个 Dupliciate 模型表，其中一个 Key 列为自增列自增列也可以用于 Value 列，下方语句示例创建 Dupliciate 模型表，其中一个 Value 列是自增列自增列支持 Duplicate Key 和 Unique Key 两种模型，Unique Key 模型的使用与 Duplicate Key 模型类似，在此不再赘述。

2024-03-27 20:46:59 21488

数据仓库理论与实战(适用于从事数仓方向的小伙伴)

关于枚举你都知道什么呢？

有没有一个讲Java 集合的系列文章

有没有一个将Java 结合的系列文章