数据与后端架构提升之路-CSDN博客

原创《精力管理》阅读笔记

精力就是做事情的能力。包括体能、情感、思维、意志四个方面

2023-01-19 17:30:19 1545 2

原创关于大数据后端粉丝交流群

对算法和Java感兴趣的朋友可以私加我微信加入算法和后端技术交流群，欢迎志同道和的朋友一起成长

2021-03-18 14:05:28 970 1

深度学习的发展经历了从简单的神经元模型到复杂的网络结构的演变。早期的麦卡洛克-皮茨模型和感知器奠定了基础，随后多层感知器和深度神经网络的出现解决了线性不可分问题。卷积神经网络（CNN）和递归神经网络（RNN）分别在图像处理和时间序列分析中表现出色。LSTM作为RNN的一种，因其独特的设计，特别适合处理和预测时间序列中的长期事件。TensorFlow等框架利用CNN等算法进行图像标注，通过特征提取、关键点预测和关联，实现单人或多人姿态估计。

2024-04-25 16:44:01 218 1

原创深度学习模型训练优化：并行化策略与参数拆分技术

本文探讨了深度学习训练中用于提高训练速度和降低硬件要求的两种并行化策略：张量并行和流水线并行。张量并行通过在多个处理单元上分割单个网络层的计算来实现并行，而流水线并行则通过将模型的不同层分配到不同的处理单元来实现模型级的并行处理。文章还介绍了垂直拆分和水平拆分大模型参数的方法，这两种拆分策略分别针对特征维度和数据样本的分布式处理，提供了优化计算资源和提高训练效率的有效途径。

2024-04-25 10:28:00 134

原创深度学习在三维点云处理与三维重建中的应用探索

本文深入探讨了点云数据处理的关键技术，包括数据清洗、降噪、简化、配准等预处理步骤，为后续的SLAM和语义分割任务奠定基础。特别地，文章详细介绍了PointNet和PointNet++这两个先进的深度学习算法，它们能够有效处理无序点云数据并提取特征。此外，还探讨了三维重建中的NeuralRecon系统，它采用多尺度方法和GRU网络来优化三维结构的生成。文章强调了这些技术的优点和面临的挑战，展望了在三维数据处理领域的未来发展。

2024-04-12 15:58:45 898 1

原创【Kaggle比赛】DFL 德甲足球事件检测大赛（CV·目标检测-视频分类）

在这场足球事件检测比赛中，参赛者需要开发一个计算机视觉模型，目标是自动识别和分类长视频中的传球、掷界外球、传中球以及挑战等事件。这将有助于从未探索的比赛和训练课程中自动化地收集数据。比赛要求提交的解决方案必须在笔记本电脑上运行，且运行时间有限制。允许使用公开数据和预训练模型。参赛者需要处理视频，抽取帧，进行图像分类，并可能使用数据增强技术如Albumentations库来提高模型的泛化能力。集成不同模型，如YOLO和DeepSORT，可以提高检测和跟踪的准确性。最终，参赛者需要将检测到的事件及其时间戳保存到

2024-04-10 09:28:05 144 1

原创数据挖掘比赛比较基础的baseline

本文综述了三种流行的梯度提升决策树（GBDT）库：LightGBM、XGBoost和CatBoost，强调了它们在处理大规模数据集、分类特征优化和数值计算加速方面的特点与应用。同时，文章探讨了模型参数调优的原则、模型验证方法，以及使用Numba和CuPy进行高效数值计算的技术。这些内容为机器学习从业者在选择合适工具和优化模型性能提供了宝贵的指导。

2024-04-01 23:47:08 659 2

原创 LeetCode1365之切披萨的方案数(相关话题：二维前缀和,动态规划)

该问题要求在给定的披萨上切割k-1次，使得每块至少包含一个苹果，计算满足条件的切割方案数。通过动态规划和前缀和技巧，我们能够高效地找到解决方案。

2024-02-07 16:44:36 649 2

原创 Flink与Redis集成：自定义连接器实现维表创建与数据汇入

本文详细介绍了如何在Apache Flink中通过自定义连接器与Redis进行数据交互，包括创建Redis维表和实现数据汇入。文章展示了如何利用现有的Redis连接器和Flink的动态表特性，通过自定义的Source和Sink，实现流式数据与Redis维表的实时Join操作，以及如何将数据批量写入Redis。此外，还探讨了如何通过缓存优化和复用现有格式来提高性能。

2024-01-31 22:55:29 401 1

原创 GeoHash编码在日志数据处理中的应用与优化

本文详细介绍了如何将GPS坐标转换为GeoHash编码，以便于进行地理位置维度分析。首先解释了GeoHash编码的原理和优势，然后展示了如何使用现成的GeoHash工具包进行坐标转换。接着，通过编写Hive UDF，实现了在Hive中直接进行GeoHash编码的功能。最后，介绍了如何利用高德API服务来补充和完善地理位置字典，以提高数据处理的准确性。

2024-01-28 22:14:07 196 1

原创 ID Mapping技术解析：从Redis到Spark GraphX的演进与应用

本文深入探讨了ID Mapping技术在处理多设备、多平台用户标识不一致问题中的应用。首先介绍了ID Mapping的背景和重要性，然后详细阐述了基于Redis和Spark GraphX的两种ID Mapping方案，包括它们的实现思路、具体代码示例以及在实际生产环境中的应用。最后，文章提供了相关资料链接，为读者提供了进一步学习和实践的资源。

2024-01-28 18:54:14 450

原创 Spark面试全攻略：深入理解与高效准备指南

这份文档提供了全面的Spark面试准备指南，涵盖了从基础到高阶的面试问题，包括Spark的核心概念、API使用、性能优化技巧以及最新的Spark特性。文档结构清晰，内容详实，旨在帮助面试者深入理解Spark框架，提升面试表现。

2024-01-27 21:52:05 620 2

原创排序算法经典模型: 梯度提升决策树（GBDT）的应用实战

梯度提升决策树(GBDT)是一种基于Boosting思想和决策树的机器学习算法。它通过迭代建立决策树弱学习器来逼近目标变量,并结合了梯度下降的思想来优化损失函数。GBDT可用于回归和分类任务,广泛应用于推荐系统等领域。

2024-01-24 15:20:17 1212 1

原创算法优化：LeetCode第122场双周赛解题策略与技巧

LeetCode第122场双周赛挑战，涵盖数组操作、排序与大小顶堆、延迟删除、滑动窗口。

2024-01-21 22:37:17 873

原创 LeetCode114二叉树展开为链表(相关话题：后序遍历)

本题要求将二叉树展开为单链表，保持先序遍历顺序。解法一通过递归展开左右子树，然后调整指针顺序；解法二利用pre记录前驱节点，依次处理右子树、左子树，最后更新前驱节点。两种方法均在原地完成，空间复杂度为O(1)。

2024-01-14 20:57:19 433

原创第380场周赛挑战：二分，数位dp和KMP算法的综合运用

二分，数位dp和KMP算法的综合运用

2024-01-14 17:02:37 539

原创 LeetCode264. 丑数 II(相关话题：多重指针动态规划)

借助dp的填充过程来理解代码

2024-01-13 22:58:49 568

原创自定义HBase负载均衡器MyCustomBalancer实现步骤与代码解析

自定义HBase负载均衡器通过集成监控数据，动态调整Region分布，优化集群性能。

2024-01-09 11:52:51 1424 1

原创知识图谱之汽车实战案例综述与前瞻分析

知识图谱在汽车行业的应用案例，包括推荐系统、产品生命周期管理等，以及如何通过RippleNet等技术提升用户体验和个性化推荐。

2024-01-07 22:26:35 1204 1

原创第121场双周赛题解：揭秘算法竞赛中的数位挑战与解题策略

本文深入剖析了算法竞赛中常见的三个问题：寻找大于等于顺序前缀和的最小缺失整数、计算使数组异或和等于给定值的最少操作次数，以及统计强大整数的数量。通过详细的代码实现和解题思路，揭示了这些算法问题的内在逻辑和高效解决方案。

2024-01-07 02:02:29 1011 1

原创揭秘大模型「幻觉」：数据偏差、泛化与上下文理解的挑战与解决之道

本文深入探讨了大型语言模型（LLM）产生「幻觉」现象的原因，包括数据偏差、过度泛化和上下文理解不足，并提出了针对性的解决策略，如改进训练数据、模型微调和上下文增强等，以期提升模型的准确性和可靠性。

2024-01-06 21:52:56 1151

原创 Flink与Kafka集成：跨版本兼容性与性能优化实战

详解如何在Flink与不同版本的Kafka集成中解决兼容性问题，通过自定义SourceFunction和SinkFunction实现高效数据流处理。

2024-01-05 20:03:34 1442 1

原创 Flink CEP完全指南：捕获数据的灵魂，构建智慧监控与实时分析大师级工具

掌握Flink CEP，即时捕捉关键事件，助力企业智慧监控与实时数据分析；深入数据流心脏，创造无限可能。

2024-01-05 01:04:56 1004 1

原创解决背包衍生题目：单词拆分和分割等和子集--动态规划方式深度呈现

我们探索了如何使用动态规划（DP）解决两个常见编程难题。“单词拆分”问题中，通过构建一个可达性数组来检查是否可以用字典中单词拼接出给定字符串。另一方面，“分割等和子集”问题需要找出数组能否分成两个总和相同的子集，涉及计算总和的一半并使用DP来确定是否有可能形成该子集总和。这两个演练揭示了DP在解决具有重叠子问题和最优子结构特点的问题方面的强大能力

2024-01-02 23:59:20 960 1

原创如何在Flink SQL中轻松实现高效数据处理：最佳实践揭秘Protobuf自定义格式

在Flink SQL中，自定义数据格式是一个强大的功能，它允许用户将外部系统中的数据以特定的格式读取到Flink中，并在Flink SQL中进行处理。本文将结合提供的链接内容，探讨如何在Flink SQL中自定义Protobuf格式，并介绍其背后的原理和实现过程。

2024-01-02 20:38:52 1361

原创 LeetCode74二分搜索优化：二维矩阵中的高效查找策略

本文介绍了如何使用二分搜索算法优化二维矩阵中的查找问题。通过将二维矩阵视为一维有序数组，利用矩阵的特定属性（每行递增，每行首元素大于前一行末元素），我们可以在虚拟的一维数组上应用二分查找。这种方法相较于传统的逐行逐列搜索，显著提高了查找效率。文章提供了详细的代码实现和算法分析，展示了二分搜索在矩阵查找问题中的应用

2024-01-01 20:35:04 1217 1

原创 LeetCode994腐烂的橘子(相关话题：矩阵dfs和bfs)

DFS通常用于探索或搜索路径问题，例如在迷宫中寻找路径，而更适合用BFS来搜索最短路径

2023-12-31 19:52:55 1251 1

原创 LeetCode二叉树路径和专题：最大路径和与路径总和计数的策略

文章介绍了二叉树路径总和三和二叉树中的最大路径和两个编程问题的解析，展示了深度优先搜索、前缀和优化和递归等方法的具体代码实现，方便读者理解和运用。

2023-12-31 00:34:11 1294

原创百万数据集测试赛题秒级查询的MySQL方案

揭秘MySQL编程大赛优胜方案！看出色选手如何利用python解24点，并将复杂解决方案用MySQL优雅处理，提供了百万级数据处理的实用战术以及明快资讯

2023-12-29 14:48:01 1134

原创探究公有云中的巨人：深入分析大数据产品的架构设计

服务器选择：托管IDC、混合云、公有云，基于需求、预算、技术能力和业务目标。

2023-12-28 17:36:54 1002 1

原创构建高效数据中台：集群规划与搭建的最佳实践指南

公司自建大数据服务器集群

2023-12-27 22:46:24 951 1

原创 Rebel + LlamaIndex 构建基于知识图谱的查询引擎

Rebel 和 LlamaIndex 在构建知识图表查询引擎时的整合使得从非结构化文本中高效地提取、构建和查询知识成为可能，同时利用了 Rebel 的三联体提取和 LlamaIndex 的图表管理和查询能力。

2023-12-25 01:10:42 1703 3

原创一站式指南：第 377 场力扣周赛的终极题解

力扣周赛，需要老板思维

2023-12-24 16:16:48 1031 1

原创全方位掌握卷积神经网络：理解原理 & 优化实践应用

本文遵循从大的层面一直剖析到小细节的讲解原则

2023-12-23 18:43:46 1400 1

原创基于 Flink SQL 和 Paimon 构建流式湖仓新方案

Paimon 结合了湖存储和 LSM（Log Structured MergeTree）技术，提供了低延时、低成本的流式数据湖解决方案。 Paimon 与 Flink 有深度集成，支持 CDC

2023-12-22 21:42:26 1534 1

原创 RAG框架LlamaIndex核心——各种索引应用分析

LlamaIndex 是一个大型语言模型（LLM）的数据框架，它提供了数据摄取、数据构建、检索和查询接口以及与其他框架集成的工具。LlamaIndex 可以帮助用户轻松地将现有的数据源和格式（如 API、PDF、文档、SQL 等）与 LLM 结合使用。它提供了多种索引类型，如列表索引、向量索引、树索引和关键字表索引，以便更好地组织和检索相关信息。

2023-12-22 20:23:19 2519

原创 LeetCode179最大数(相关话题：自定义排序器)

比较器的基本原理

2023-12-21 19:12:23 424 1

原创从实践角度优化数据库设计：深入解析三范式的应用

在数据库设计中，范式（Normal Form）是用来评估关系模式（即数据库表结构）的一种方法，目的是减少数据冗余和提高数据完整性。不同的范式级别有不同的要求和规范。

2023-12-20 15:42:40 972 1

原创基于局域网和广域网训练推理加速策略

TensorFlow 的 MirroredStrategy 和 PyTorch 的 DistributedDataParallel 它们可以帮助您在多个 GPU 或多个计算节点上训练大型模型。Petals 适用于那些希望优化深度学习模型推理和微调的场景，尤其是当单一设备无法高效处理这些大型模型时。

2023-12-18 18:43:54 874

原创 LeetCode100123执行操作使频率分数最大(相关话题：滑动窗口，二分法，前缀和)

周赛要想拿名次至少刷满力扣的3000题

2023-12-17 18:18:01 455

单目视频的实时相干3D重建

2024-04-12

针对小尺寸自动驾驶汽车的轻量级语义slam解决方案

2024-04-11

【Kaggle比赛】DFL 德甲足球事件检测大赛（CV·目标检测-视频分类）

2024-04-06

线性回归与逻辑回归测试数据

2024-01-29

Spark面试攻略：全面准备与技巧指南.docx

Spark面试攻略：全面准备与技巧指南

2024-01-26

知识问答助理python代码

2024-01-06

一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法

这篇文章是《Information Processing Letters》1985年第20卷第1期的一篇论文，标题为“Selection in X+Y and Matrices with Sorted Rows and Columns”，作者是A. Mirzaian和E. Arjomandi，来自加拿大约克大学计算机科学系。文章的主要内容是关于在有序矩阵中进行选择（selection）问题的研究。具体来说，文章提出了一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法。这个问题在统计学和运筹学中有应用，并且与VLSI布局问题相关。

2024-01-01

数据中台的集群规划和搭建

2023-12-27

数据中台的集群规划和搭建

2023-12-27

数据中台的集群规划和搭建

2023-12-27

数据中台的集群规划和搭建

2023-12-27

用户画像学习资料链接地址

用户画像学习资料

2023-11-16

华为鸿蒙4谷歌鸿蒙GMS安装的安装包

华为鸿蒙4谷歌鸿蒙GMS安装的安装包 https://blog.csdn.net/lzhcoder/article/details/133976046

2023-10-23

大数据技术之Spark调优

2023-05-03

flink 操作iceberg 的示例代码

2023-02-23

生成kettle作业的Java代码.rar

生成kettle作业的Java代码

2021-12-06

datagrip工具.rar

hive clickhuse 等大数据连接客户端

2021-08-03

cdh5.9.3.rar

hadoop-2.6.0-cdh5.9.3.tar.gz hive-1.1.0-cdh5.9.3.tar.gz sqoop-1.4.6-cdh5.9.3.tar.gz

2021-07-20

imooc-hos.rar

基于SpringBoot和Hbase的分布式文件存储系统

2021-03-31

Highcharts案例.rar

Highcharts案例介绍 1. 显示一个静态的折线图，要求显示data1.txt文件中的气象数据。 2. 将第一个案例改成直方图，并在每个方块上显示温度值。 3. 在第一个案例中进行修改，不显示版权信息，并将折线图更改为曲线图。 4. 在第三个案例中进行修改，进行辅助线的显示、定制legend(图例)、Tooltip(数据显示框)以及数据输出(中文)。要求当鼠标移动到对应节点的时候，显示辅助线，另外要求分别显示平均最高气温和最低气温的辅助线；要求legend显示在覆盖图表，并显示在左上角；要求数据提示框同时显示最高温度和最低温度&今日平均温度。 a. 显示中文输出 b. 定制legend c. 定制tooltip e. 显示平均温度辅助线(作业：当最高温度不显示的时候，最高平均温度这个辅助线也不显示，同理最低温度一样。) 解决方案：(为了方便操作，可以将legend的属性floating修改为false，然后将最低气温的第一个值改成11，这样方便操作) 公用部分：使用自定义属性将平均温度辅助线分别添加到对应属性列中(也可以不添加)。 i: 使用chart属性里面的events中的redraw方法，参考属性this.series[i].visible属性，该属性如果为true，表示该数据列显示，如果为false，表示该数据列不显示。然后再分别进行操作。 ii：使用plotOptions中的series的events事件中的hide和show事件，这个就不用参考visible属性。 f. 显示辅助线（x轴上） 5. 显示一个饼图，要求显示data2.txt中的浏览器用户数据。 6. 在第5个案例的基础上，要求点击某个浏览器扇形后，在另外一个容器中显示该浏览器具体的用户使用数据，具体数据在data3.txt中。 7. 显示中国各省份用户ip访问量的展示图，具体数据在data4.txt。

2020-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

单目视频的实时相干3D重建

针对小尺寸自动驾驶汽车的轻量级语义slam解决方案

【Kaggle比赛】DFL 德甲足球事件检测大赛（CV·目标检测-视频分类）

线性回归与逻辑回归测试数据

Spark面试攻略：全面准备与技巧指南.docx

知识问答助理python代码

一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法

数据中台的集群规划和搭建

数据中台的集群规划和搭建

数据中台的集群规划和搭建

数据中台的集群规划和搭建

用户画像学习资料链接地址

华为鸿蒙4谷歌鸿蒙GMS安装的安装包

大数据技术之Spark调优

flink 操作iceberg 的示例代码

生成kettle作业的Java代码.rar

datagrip工具.rar

cdh5.9.3.rar

imooc-hos.rar

Highcharts案例.rar

Java设计模式分享.ppt

elasticsearch-5.6.3+kibana-5.6.3+logstash-5.6.3.rar

logstash5.6.3 + elastich 5.6.3.rar

elasticsearch-analysis-ik-5.2.0.rar

MAT 堆内存分析工具

分布式JAVA应用基础与实践（林昊）完整版pad+源码

深入剖析Tomcat源码

kafka sbt-0.13.16.tgz

基于android的蜗要工作app的设计与实现

html2image-0.9.jar

支付宝批量转账

支付宝网站支付java代码

微信支付java代码

andriod afinal框架demo

andoid ppt demo实例

Android官方API文档完整版

js版植物大战僵尸

C++算法导论

基于SSH的电子办公系统

算法入门经典

空空如也