- 博客(524)
- 资源 (31)
- 收藏
- 关注
原创 深度学习实践指南:打造强大AI应用的关键步骤和技巧
深度学习的发展经历了从简单的神经元模型到复杂的网络结构的演变。早期的麦卡洛克-皮茨模型和感知器奠定了基础,随后多层感知器和深度神经网络的出现解决了线性不可分问题。卷积神经网络(CNN)和递归神经网络(RNN)分别在图像处理和时间序列分析中表现出色。LSTM作为RNN的一种,因其独特的设计,特别适合处理和预测时间序列中的长期事件。TensorFlow等框架利用CNN等算法进行图像标注,通过特征提取、关键点预测和关联,实现单人或多人姿态估计。
2024-04-25 16:44:01 218 1
原创 深度学习模型训练优化:并行化策略与参数拆分技术
本文探讨了深度学习训练中用于提高训练速度和降低硬件要求的两种并行化策略:张量并行和流水线并行。张量并行通过在多个处理单元上分割单个网络层的计算来实现并行,而流水线并行则通过将模型的不同层分配到不同的处理单元来实现模型级的并行处理。文章还介绍了垂直拆分和水平拆分大模型参数的方法,这两种拆分策略分别针对特征维度和数据样本的分布式处理,提供了优化计算资源和提高训练效率的有效途径。
2024-04-25 10:28:00 134
原创 深度学习在三维点云处理与三维重建中的应用探索
本文深入探讨了点云数据处理的关键技术,包括数据清洗、降噪、简化、配准等预处理步骤,为后续的SLAM和语义分割任务奠定基础。特别地,文章详细介绍了PointNet和PointNet++这两个先进的深度学习算法,它们能够有效处理无序点云数据并提取特征。此外,还探讨了三维重建中的NeuralRecon系统,它采用多尺度方法和GRU网络来优化三维结构的生成。文章强调了这些技术的优点和面临的挑战,展望了在三维数据处理领域的未来发展。
2024-04-12 15:58:45 898 1
原创 【Kaggle比赛】DFL 德甲足球事件检测大赛(CV·目标检测-视频分类)
在这场足球事件检测比赛中,参赛者需要开发一个计算机视觉模型,目标是自动识别和分类长视频中的传球、掷界外球、传中球以及挑战等事件。这将有助于从未探索的比赛和训练课程中自动化地收集数据。比赛要求提交的解决方案必须在笔记本电脑上运行,且运行时间有限制。允许使用公开数据和预训练模型。参赛者需要处理视频,抽取帧,进行图像分类,并可能使用数据增强技术如Albumentations库来提高模型的泛化能力。集成不同模型,如YOLO和DeepSORT,可以提高检测和跟踪的准确性。最终,参赛者需要将检测到的事件及其时间戳保存到
2024-04-10 09:28:05 144 1
原创 数据挖掘比赛比较基础的baseline
本文综述了三种流行的梯度提升决策树(GBDT)库:LightGBM、XGBoost和CatBoost,强调了它们在处理大规模数据集、分类特征优化和数值计算加速方面的特点与应用。同时,文章探讨了模型参数调优的原则、模型验证方法,以及使用Numba和CuPy进行高效数值计算的技术。这些内容为机器学习从业者在选择合适工具和优化模型性能提供了宝贵的指导。
2024-04-01 23:47:08 659 2
原创 LeetCode1365之切披萨的方案数(相关话题:二维前缀和,动态规划)
该问题要求在给定的披萨上切割k-1次,使得每块至少包含一个苹果,计算满足条件的切割方案数。通过动态规划和前缀和技巧,我们能够高效地找到解决方案。
2024-02-07 16:44:36 649 2
原创 Flink与Redis集成:自定义连接器实现维表创建与数据汇入
本文详细介绍了如何在Apache Flink中通过自定义连接器与Redis进行数据交互,包括创建Redis维表和实现数据汇入。文章展示了如何利用现有的Redis连接器和Flink的动态表特性,通过自定义的Source和Sink,实现流式数据与Redis维表的实时Join操作,以及如何将数据批量写入Redis。此外,还探讨了如何通过缓存优化和复用现有格式来提高性能。
2024-01-31 22:55:29 401 1
原创 GeoHash编码在日志数据处理中的应用与优化
本文详细介绍了如何将GPS坐标转换为GeoHash编码,以便于进行地理位置维度分析。首先解释了GeoHash编码的原理和优势,然后展示了如何使用现成的GeoHash工具包进行坐标转换。接着,通过编写Hive UDF,实现了在Hive中直接进行GeoHash编码的功能。最后,介绍了如何利用高德API服务来补充和完善地理位置字典,以提高数据处理的准确性。
2024-01-28 22:14:07 196 1
原创 ID Mapping技术解析:从Redis到Spark GraphX的演进与应用
本文深入探讨了ID Mapping技术在处理多设备、多平台用户标识不一致问题中的应用。首先介绍了ID Mapping的背景和重要性,然后详细阐述了基于Redis和Spark GraphX的两种ID Mapping方案,包括它们的实现思路、具体代码示例以及在实际生产环境中的应用。最后,文章提供了相关资料链接,为读者提供了进一步学习和实践的资源。
2024-01-28 18:54:14 450
原创 Spark面试全攻略:深入理解与高效准备指南
这份文档提供了全面的Spark面试准备指南,涵盖了从基础到高阶的面试问题,包括Spark的核心概念、API使用、性能优化技巧以及最新的Spark特性。文档结构清晰,内容详实,旨在帮助面试者深入理解Spark框架,提升面试表现。
2024-01-27 21:52:05 620 2
原创 排序算法经典模型: 梯度提升决策树(GBDT)的应用实战
梯度提升决策树(GBDT)是一种基于Boosting思想和决策树的机器学习算法。它通过迭代建立决策树弱学习器来逼近目标变量,并结合了梯度下降的思想来优化损失函数。GBDT可用于回归和分类任务,广泛应用于推荐系统等领域。
2024-01-24 15:20:17 1212 1
原创 算法优化:LeetCode第122场双周赛解题策略与技巧
LeetCode第122场双周赛挑战,涵盖数组操作、排序与大小顶堆、延迟删除、滑动窗口。
2024-01-21 22:37:17 873
原创 LeetCode114二叉树展开为链表(相关话题:后序遍历)
本题要求将二叉树展开为单链表,保持先序遍历顺序。解法一通过递归展开左右子树,然后调整指针顺序;解法二利用pre记录前驱节点,依次处理右子树、左子树,最后更新前驱节点。两种方法均在原地完成,空间复杂度为O(1)。
2024-01-14 20:57:19 433
原创 自定义HBase负载均衡器MyCustomBalancer实现步骤与代码解析
自定义HBase负载均衡器通过集成监控数据,动态调整Region分布,优化集群性能。
2024-01-09 11:52:51 1424 1
原创 知识图谱之汽车实战案例综述与前瞻分析
知识图谱在汽车行业的应用案例,包括推荐系统、产品生命周期管理等,以及如何通过RippleNet等技术提升用户体验和个性化推荐。
2024-01-07 22:26:35 1204 1
原创 第121场双周赛题解:揭秘算法竞赛中的数位挑战与解题策略
本文深入剖析了算法竞赛中常见的三个问题:寻找大于等于顺序前缀和的最小缺失整数、计算使数组异或和等于给定值的最少操作次数,以及统计强大整数的数量。通过详细的代码实现和解题思路,揭示了这些算法问题的内在逻辑和高效解决方案。
2024-01-07 02:02:29 1011 1
原创 揭秘大模型「幻觉」:数据偏差、泛化与上下文理解的挑战与解决之道
本文深入探讨了大型语言模型(LLM)产生「幻觉」现象的原因,包括数据偏差、过度泛化和上下文理解不足,并提出了针对性的解决策略,如改进训练数据、模型微调和上下文增强等,以期提升模型的准确性和可靠性。
2024-01-06 21:52:56 1151
原创 Flink与Kafka集成:跨版本兼容性与性能优化实战
详解如何在Flink与不同版本的Kafka集成中解决兼容性问题,通过自定义SourceFunction和SinkFunction实现高效数据流处理。
2024-01-05 20:03:34 1442 1
原创 Flink CEP完全指南:捕获数据的灵魂,构建智慧监控与实时分析大师级工具
掌握Flink CEP,即时捕捉关键事件,助力企业智慧监控与实时数据分析;深入数据流心脏,创造无限可能。
2024-01-05 01:04:56 1004 1
原创 解决背包衍生题目:单词拆分和分割等和子集--动态规划方式深度呈现
我们探索了如何使用动态规划(DP)解决两个常见编程难题。“单词拆分”问题中,通过构建一个可达性数组来检查是否可以用字典中单词拼接出给定字符串。另一方面,“分割等和子集”问题需要找出数组能否分成两个总和相同的子集,涉及计算总和的一半并使用DP来确定是否有可能形成该子集总和。这两个演练揭示了DP在解决具有重叠子问题和最优子结构特点的问题方面的强大能力
2024-01-02 23:59:20 960 1
原创 如何在Flink SQL中轻松实现高效数据处理:最佳实践揭秘Protobuf自定义格式
在Flink SQL中,自定义数据格式是一个强大的功能,它允许用户将外部系统中的数据以特定的格式读取到Flink中,并在Flink SQL中进行处理。本文将结合提供的链接内容,探讨如何在Flink SQL中自定义Protobuf格式,并介绍其背后的原理和实现过程。
2024-01-02 20:38:52 1361
原创 LeetCode74二分搜索优化:二维矩阵中的高效查找策略
本文介绍了如何使用二分搜索算法优化二维矩阵中的查找问题。通过将二维矩阵视为一维有序数组,利用矩阵的特定属性(每行递增,每行首元素大于前一行末元素),我们可以在虚拟的一维数组上应用二分查找。这种方法相较于传统的逐行逐列搜索,显著提高了查找效率。文章提供了详细的代码实现和算法分析,展示了二分搜索在矩阵查找问题中的应用
2024-01-01 20:35:04 1217 1
原创 LeetCode994腐烂的橘子(相关话题:矩阵dfs和bfs)
DFS通常用于探索或搜索路径问题,例如在迷宫中寻找路径,而更适合用BFS来搜索最短路径
2023-12-31 19:52:55 1251 1
原创 LeetCode二叉树路径和专题:最大路径和与路径总和计数的策略
文章介绍了二叉树路径总和三和二叉树中的最大路径和两个编程问题的解析,展示了深度优先搜索、前缀和优化和递归等方法的具体代码实现,方便读者理解和运用。
2023-12-31 00:34:11 1294
原创 百万数据集测试赛题秒级查询的MySQL方案
揭秘MySQL编程大赛优胜方案!看出色选手如何利用python解24点,并将复杂解决方案用MySQL优雅处理,提供了百万级数据处理的实用战术以及明快资讯
2023-12-29 14:48:01 1134
原创 Rebel + LlamaIndex 构建基于知识图谱的查询引擎
Rebel 和 LlamaIndex 在构建知识图表查询引擎时的整合使得从非结构化文本中高效地提取、构建和查询知识成为可能,同时利用了 Rebel 的三联体提取和 LlamaIndex 的图表管理和查询能力。
2023-12-25 01:10:42 1703 3
原创 基于 Flink SQL 和 Paimon 构建流式湖仓新方案
Paimon 结合了湖存储和 LSM(Log Structured MergeTree)技术,提供了低延时、低成本的流式数据湖解决方案。 Paimon 与 Flink 有深度集成,支持 CDC
2023-12-22 21:42:26 1534 1
原创 RAG框架LlamaIndex核心——各种索引应用分析
LlamaIndex 是一个大型语言模型(LLM)的数据框架,它提供了数据摄取、数据构建、检索和查询接口以及与其他框架集成的工具。LlamaIndex 可以帮助用户轻松地将现有的数据源和格式(如 API、PDF、文档、SQL 等)与 LLM 结合使用。它提供了多种索引类型,如列表索引、向量索引、树索引和关键字表索引,以便更好地组织和检索相关信息。
2023-12-22 20:23:19 2519
原创 从实践角度优化数据库设计:深入解析三范式的应用
在数据库设计中,范式(Normal Form)是用来评估关系模式(即数据库表结构)的一种方法,目的是减少数据冗余和提高数据完整性。不同的范式级别有不同的要求和规范。
2023-12-20 15:42:40 972 1
原创 基于局域网和广域网训练推理加速策略
TensorFlow 的 MirroredStrategy 和 PyTorch 的 DistributedDataParallel 它们可以帮助您在多个 GPU 或多个计算节点上训练大型模型。Petals 适用于那些希望优化深度学习模型推理和微调的场景,尤其是当单一设备无法高效处理这些大型模型时。
2023-12-18 18:43:54 874
一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法
2024-01-01
华为鸿蒙4谷歌鸿蒙GMS安装的安装包
2023-10-23
cdh5.9.3.rar
2021-07-20
Highcharts案例.rar
2020-07-13
elasticsearch-5.6.3+kibana-5.6.3+logstash-5.6.3.rar
2019-09-15
elasticsearch-analysis-ik-5.2.0.rar
2019-09-12
基于SSH的电子办公系统
2014-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人