hellozhxy-CSDN博客

转载常见的深度学习模型

在实际应用中，每个分支都有大量的著名的变种模型。万变不离其宗，了解了基本原理和设计思想，就能够更容易理解各个变种模型的妙处以及适用场景。

2024-03-13 14:44:32 187

自从 Transformer 结构被提出以来，以 BERT 为代表的 Encoder 模型，以 GPT 为代表的 Decoder 模型，以 ViT 为代表的 CV 模型，都烜赫一时。时至今日，几乎所有的 LLM 也都是 Transformer 结构，尽管不时也会有新的结构被提出来，但 Transformer 的江湖地位仍然无可撼动。希望通过以上问题的思考和讨论，能够帮助我们更好地使用Transformer、理解Transformer、优化Transformer和改进Transformer。

2024-03-09 12:34:08 202

原创联邦学习目前的热门研究方向

联邦学习是一种特殊的分布式机器学习，跨多个局部数据集训练模型，在保护用户隐私的同时，提高数据利用率提升模型性能。（1）模型压缩（量化、稀疏化和参数剪枝等）: 减少需要传输的数据量，以减轻通信负担，同时保持或提高性能。（2）可解释性和透明度: 增强模型的解释能力，让非专业人士也能理解模型的决策过程。（3）对抗性攻击和防御: 开发新的算法和策略来抵抗对抗性攻击，保护模型不被欺骗。（1）联邦学习框架和平台: 开发更加高效、易用的框架和平台，支持大规模联邦学习。4. 跨领域和跨语言联邦学习。1. 隐私保护和安全。

2024-02-29 18:52:42 338

转载大模型面试问题记录

在训练过程中，模型会学习这些符号的嵌入表示。INT8提供更高的压缩比，可以显著减少模型的内存占用和带宽需求，但由于量化过程中的信息损失，可能会对模型的准确性产生一定影响。这种现象通常发生在大型模型中，原因是大型模型具有更高的表示能力和更多的参数，可以更好地捕捉数据中的模式和关联。知识蒸馏是一种模型压缩技术，其中一个大型的、表现良好的模型（教师模型）被用来训练一个小型的模型（学生模型）。微调后的模型出现能力劣化，灾难性遗忘可能是因为模型在微调过程中学习到了过多的特定任务的知识，而忽略了通用的语言知识。

2024-02-24 12:17:03 178

转载 JVM内存问题排查Cookbook

本文又名《如何让对JVM一窍不通的我快速开始排查应用内存问题》。在来阿里之前，我主要做Go和C++的后端开发，JVM了解不多。然后在这里一开始做过两段内部工具的开发，维护的业务代码由于经手人迭代比较频繁，整体的代码风格和代码结构没有那么标准吧，在海外上线压测和客户使用中出现过几次内存非预期暴涨。然后也慢慢边看边学开始上手起来。之后来到对客页面，意外的是在这里也会碰到不少客户打来的内存相关问题。

2024-02-18 18:31:57 78

转载简化版Transformer ：Simplifying Transformer Block论文详解

在设计深层Transformer 时，一种常见的方法是使用复杂的组件组成，这些组件块由交织在一起的注意力和MLP子块、跳过连接和规一化层组成。这种复杂性会使这些体系结构变得脆弱，即使是很小的更改也会显著影响训练速度或使模型无法训练。论文研究以信号传播理论及实证研究结果为基础，探讨标准Transformer 块的简化方法。证明了许多组件，如跳过连接、投影或值参数、顺序子块和归一化层，可以在不牺牲训练速度的情况下被删除。

2024-01-27 13:10:27 88

转载论文详解：Swin Transformer

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》作为2021 ICCV最佳论文，屠榜了各大CV任务，性能优于DeiT、ViT和EfficientNet等主干网络，已经替代经典的CNN架构，成为了计算机视觉领域通用的backbone。它基于了ViT模型的思想，创新性的引入了滑动窗口机制，让模型能够学习到跨窗口的信息，同时也。同时通过下采样层，使得模型能够处理超分辨率的图片，节省计算量以及能够关注全局和局部的信息。

2024-01-25 17:58:30 145

转载性能优化思路及常用工具及手段

Q：例如ASI排查场景中，看到pod cpu高或者 load高，但根因是出在其他地方，可能是安全插件rasp负载高、也可能是后台异常内存回收、也可能是宿主机负载高导致，现在全凭经验做排除法，有没有类似字典的方式手段定位问题？A：一般情况下出现这种情况，可以从几个角度缩小问题产生的范围。1）是不是该宿主机上的所有容器都有类似的表现？

2024-01-24 20:57:20 69

转载基于 Flink+Clickhouse 构建实时数仓

快速变化维度（如用户信息）则不太适合打进宽表，我们采用MySQL表引擎将快变维度表直接映射到ClickHouse中，而ClickHouse支持异构查询，也能够支撑规模较小的维表join场景。当前我们仅实现了DataStream API风格的Flink-ClickHouse Sink，随着Flink作业SQL化的大潮，在未来还计划实现SQL风格的ClickHouse Sink，打磨健壮后会适时回馈给社区。点击流实时数仓的分层设计仍然可以借鉴传统数仓的方案，以扁平为上策，尽量减少数据传输中途的延迟。

2024-01-22 18:56:33 90

转载 Flink 实时数仓建设

流计算分析大量工业传感器传入数据，实时进行数据清洗和归纳，可以帮助用户实时分析和诊断工业设备的运行状况，实时检测运行故障，实时预测制品良率，实时监控设备关键指标、实时将数据清洗并写入在线OLAP系统和MQ ,通过MQ作为告警消息源，更好保证数据投递过程中避免用户告警系统故障，导致告警信息遗漏，保证告警准确性。当然，极致的速度必然会有较高的成本。：经过处理的数据，可直接服务于相关业务方，如运营，决策者，相关应用等，如运营人员可通过实时报表中的数据及时调整运营策略，提高活动转化率，实时风控，可避免业务损失等。

2024-01-22 18:54:14 53

转载深入解析 Flink CDC 增量快照读取机制

但Flink CDC 中 Chunk 级别的 checkpoint 并不是直接利用Flink 计数驱动的 checkpoint 来实现的，相反，它是 Flink CDC 根据自身的机制自己实现的。在 Flink CDC 中实现 Chunk 级别的 checkpoint 本质是使用 Flink 的 Checkpointing 机制和相应的配置，启用 Chunk 级别的 checkpoint 后，Flink CDC 将在每个 Chunk 完成读取后进行一次 checkpoint，以确保数据的一致性和容错性。

2024-01-21 11:37:13 347

原创 ElasticSearch调优

弄懂了上述知识点，对于ES就算是入门了，也可以根据业务场景进行合理的技术选型了。Java技术栈的经典八股文mp.weixin.qq.com/s?btw：该八股文除了ES之外，还包括Java基础、Spring生态、MyBatis、MySQL、JVM、Redis、Kafka、RocketMQ、Dubbo、操作系统和网络、Netty、Doris、ClickHouse，非常全面。

2024-01-21 11:31:52 857

原创 Elasticsearch 调优实践

如果你傻乎乎往 es 里写入一行数据所有的字段，就会导致说 90% 的数据是不用来搜索的，结果硬是占据了 es 机器上的 filesystem cache 的空间，单条数据的数据量越大，就会导致 filesystem cahce 能缓存的数据就越少。然后你从 es 检索可能就花费 20ms，然后再根据 es 返回的 id 去 hbase 里查询，查 20 条数据，可能也就耗费个 30ms，可能你原来那么玩儿，1T 数据都放 es，会每次查询都是 5~10s，现在可能性能就会很高，每次查询就是 50ms。

2024-01-21 11:29:54 874

转载 CNN 与 ViT 的完美结合 | TransXNet: 结合局部和全局注意力提供强大的归纳偏差和高效感受野

在以前的方法中，为了实现 token 之间的交互，通常会使用 1×11 \times 1 卷积层，但这会导致相当大的计算开销。中的注意力矩阵都是动态生成的，使用了前几个块中收集的局部和全局信息，从而增强了网络的表示能力，融入了强大的归纳偏差和扩展的有效感受野。，通过有效利用不同的特征提取方法，提高了网络的表示能力，同时在前馈网络中引入多尺度的特征聚合，为各种视觉任务提供了出色的性能。、目标检测和语义/实例分割任务上进行了大量实验，结果表明，所提方法在性能上超越了以前的方法，同时具有更低的计算成本。

2024-01-12 16:20:34 265

转载 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

专家混合（MoE）模型则不同，它针对每个输入示例选择不同的参数。其结果是一个稀疏激活的模型--参数数量多得离谱--但计算成本不变。然而，尽管 MoE 取得了一些显著的成功，其广泛应用仍受到复杂性、通信成本和训练不稳定性的阻碍。我们通过引入Switch Transformers来解决这些问题。我们简化了 MoE 路由算法，设计了直观的改进模型，降低了通信和计算成本。我们提出的训练技术可减轻不稳定性，并首次展示了可使用较低精度（bfloat16）格式训练大型稀疏模型。

2024-01-12 11:54:50 153

转载 Transformer中的各种改进

LLM大行其道的时代，Transformer成为了当下最流行的模型结构，没有之一。为了达到加速或提效的目的，在vanilla Transformer的基础上，业界探索了针对不同组件的各种改进。

2024-01-11 11:17:10 280

转载图神经网络（GNN）最简单全面原理与代码实现

图数据是由节点（Node）和边（Edge）组成的数据，最简单的方式是使用邻接矩阵来表示图形结构，从而捕捉图形中的节点和边的相关性。假设图中的节点数为n，那么邻接矩阵就是一个n*n的矩阵，如果节点之间有关联，则在邻接矩阵中表示为1，无关联则为0。在图中，鲁班与其他英雄都没有关联，表现在邻接矩阵当中就是它所在的行与列为全零。王者荣耀当中的图和邻接矩阵图数据的信息包含3个层面，分别是节点信息（V）、边信息（E）、图整体（U）信息，它们通常是用向量来表示。

2024-01-11 10:12:23 1133

转载 transformer教程

Transformer在Goole的一篇论文Attention is All You Need被提出，为了方便实现调用Transformer Google还开源了一个第三方库，基于TensorFlow的Tensor2Tensor，一个NLP的社区研究者贡献了一个Torch版本的支持：guide annotating the paper with PyTorch implementation。

2024-01-07 15:35:12 74

转载备战双十一·尖货优品实时选技术

双十一是全国人民的购物狂欢节，但是对于阿里技术人而言，双十一则是一年一度的大考，技术人穷尽一切办法保障极致的用户体验和稳如泰山的可靠性，从底层网络、基础架构、容量规划、性能优化到个性化推荐，智能搜索，复杂营销玩法，整个技术支撑体系的每个层面都不断演进和诞生大量技术创新。弱水三千只取一瓢，如果你关注双十一，你会发现有大量的类似下面第一张图的“运动尖货”会场页面，这类会场有两个特点：特征相似。（例如图1的都是运动类商品）千人千面。

2023-12-14 10:27:15 133

转载京东选品平台实践

京东零售选品平台初版上线于2021年Q3，整个平台的架构设计，包含了系统工程和数据处理两大方面的研发知识体系，对于团队和我个人是一个挑战和机遇。

2023-12-14 10:20:21 165

转载京东云ClickHouse和ES双引擎设计在零售选品中的应用实践

背景介绍涅槃选品是京东零售内的战略级bigboss项目，项目主要致力于构建商品底层能力，打通提报、投放流程，实现选品的线上化、规则化与智能化；通过多方协作盘货，充分表达营销、品类、运营/采销等多方意志。业务上的多样化需求，导致在项目初期面临以下众多技术难点与挑战。面向研发排障的问题解决为解决以上技术难点，京东零售整体设计了一套这样的技术方案：技术方案在数据存储查询上主要分成三个大模块：模块一：ClickHouse与Elasticsearch存储结构设计模块；

2023-12-14 10:13:19 108

转载聊聊互联网营销

"一代人有一代人的使命，一代人有一代人的担当"。软件工程上更新迭代的速度远高于人类代际的更迭，每个系统都是站在更早系统的肩膀上，进步了一点点，去担当崭新的需求。看了这篇文章的你，是否有多一点的信心，去自己练习下营销的第4门功课呢。

2023-12-14 10:06:27 45

转载闲鱼商品选投实时性优化

本文从马赫选品到马赫投放实时性优化做了全面的介绍，每一步优化呈现的都是最终方案，为了保证系统的平滑过渡优化中中踩了很多坑不过最终都平稳落地，优化后的马赫从选品到投放整个实时链路时延有一个质的变化，选品数据从T+1变为H+1，选品流程从6分钟变为30秒，投放流程从2分钟变为2秒，系统更健壮也更实时，从整体功能看马赫还是属于一个工具级别系统，还远没有达到产品级别系统级。如上图所示，未来会把重点放在选品能力与整体运维能力上，在优化原有系统的同时增加新的能力，逐步把马赫打造成产品化系统。

2023-12-14 10:01:11 21

转载咸鱼增长玩法

闲鱼用户增长团队在最近半年发力增加大量玩法覆盖闲鱼用户群体，业务和技术上都在探索如何快速支持玩法快速开发配置上线，提高研发效率，支持业务快速试错和实验，闲鱼用户玩法体系为技术侧对于业务玩法的抽象总结和增长方法论沉淀的一部分，欢迎感兴趣的同学加入我们一起建设闲鱼用户增长技术体系。

2023-12-14 09:57:03 32

转载闲鱼高效投放背后的秘密——鲲鹏

作者：闲鱼技术-峰明。

2023-12-14 09:51:05 36

转载闲鱼亿级商品库中的秒级实时选品

所以 Blink 中的 State 就是与时间相关的，Blink 任务的内部数据（计算数据和元数据属性）的快照。举例来说，内存中保存的商品 ID=1 的信息是{“desc”: [1, “描述 1”], “price”: [4, 100.5]},数据流中商品 ID=1 的信息是{“desc”: [2, “描述 2”], “price”: [3, 99.5]}，那么合并结果就是{“desc”: [2, “描述 2”], “price”: [4, 100.5]}，每个字段的值都是最新的，代表商品当前最新信息。

2023-12-14 09:46:52 40

转载从零实现Transformer

本文尝试从零开始实现一个Transformer，内容非常浅显易懂，看完不会的话博主倒立洗头（倒立洗头机广告位@手工耿这篇文章旨在拆解Transformer的工作原理以及实现方式，没有针对特定任务。在后续文章中，我们将尝试基于Transformer结构从零开始实现一个语音识别系统（挖坑.jpg），从而对Transformer的具体应用以及基于深度学习的序列识别任务框架有一个更加深入细致的理解。

2023-12-11 11:03:02 127

转载 swin-transformer原理介绍

作者：Vincent Liu链接：https://www.zhihu.com/question/521494294/answer/2492957365来源：知乎Swin Transformer 的提出可以说是里程碑式的，在学术界引起了巨大的反响，网络上也有许多讲解的教程，这一篇就写得非常棒，另外强烈推荐Zhu老师在。这篇文章就来记录一下我对 Swin Transformer 的理解。首先，在。

2023-12-08 18:12:56 91

转载 swin-transformer原理

作者：大叔爱学习链接：https://www.zhihu.com/question/521494294/answer/3178312617来源：知乎Swin Transformer的提出，就是让Transformer也有CNN的Block和层级这个多尺度的概念。Vit的作者在Paper的最后面提出，只在Classification方面做了尝试，其他的留给后人。因为在图像的其他下游任务中，比如目标检测，，图像生成，都需要更细的粒度。

2023-12-08 18:09:36 272

转载 ViT实现细节

到此为止，关于VIT模型，我们就介绍完毕了。如果训练数据量不够多的话，看起来VIT也没比CNN好多少呀，VIT的意义是什么呢？这是个很好的问题，因为在工业界，人们的标注数据量和算力都是有限的，因此CNN可能还是首要选择。证明了一个统一框架在不同模态任务上的表现能力。在VIT之前，NLP的SOTA范式被认为是Transformer，而图像的SOTA范式依然是CNN。VIT出现后，证明了用NLP领域的SOTA模型一样能解图像领域的问题，同时在论文中通过丰富的实验，证明了VIT对CNN的替代能力。

2023-12-08 17:26:32 127

转载 transformer是怎么把图片转成token的？

作者：HeptaAI链接：https://www.zhihu.com/question/488561011/answer/3131570354来源：知乎最近回顾了一下ViT的结构，发现从文本Transformer出发解释会好理解很多。ViT其实就是图像版的BERT，除了一开始从输入到与BERT不同之外，其他的技巧基本都是相同的。例如，ViT的[CLS] token，后期的Encoder block，MLP head，与BERT都是完全一致的：动图版本：从图中可以看出，两者的主要差别就是。

2023-12-08 16:58:09 264

转载常见的神经网络模型

在同一层的神经元之间是相互独立的，而在不同的网络层之间的神经元是相互连接的（双向连接）。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。）是⼀种简单的神经⽹络，也被称为多层感知机（multi-layer perceptron，简称MLP），其中不同的神经元属于不同的层，由输⼊层-隐藏层-输出层构成，信号从输⼊层往输出层单向传递，中间无反馈，其目的是为了拟合某个函数，由⼀个。

2023-12-08 16:27:13 342

转载 Transformer教程

例如，一句话中词语交换位置，句子含义可能发生显著变化，为了引入token的位置信息，在原始的模型中，使用的是人工设计、根据位置计算出的正余弦编码。Compressive Transformer 与Transformer-XL类似，此处是将之前片段的表示压缩到记忆单元中，在进行新的片段表示学习时，直接关注压缩记忆内容，使得模型当前可以关注到更早的片段信息。：BERT只训练Transformer的编码器，自从BERT出现后，Transformer成为NLP预训练模型的主体结构。并且连接关系完全由数据驱动给出。

2023-12-08 16:14:32 69

转载用 Transformers微调ViT图像分类

批处理以字典列表的形式出现，因此您可以将它们解压缩+堆叠到批处理张量中。由于将返回批处理字典，因此您可以稍后将输入到模型中。return {1234567来自的准确度指标可以轻松用于将预测与标签进行比较。下面，您可以看到如何使用datasetscompute_metricsTrainer123456让我们加载预训练模型。我们将添加 init，以便模型创建具有正确单位数的分类头。我们还将在 Hub 微件中包含和映射以具有人类可读的标签（如果您选择）

2023-12-08 12:00:41 145

原创什么是过拟合

但是，也有可能，模型的平均误差率在85%左右，在95%的置信度下，模型预测准确率的置信区间恰为 [80%，90%]，那么此时模型并没有过拟合。当然，后一种情况出现的概率相对较小，我只是想表达一下，这种直观的判断方法是不一定准确的，不过方便的是，我们不用画学习曲线图啊，多省事。但是，有些模型除了参数还有超参数，例如KNN和KMeans的k值，支持向量机的C值，这些超参数是需要人为设定，没有办法让模型自己学习得到，我们只能通过经验或者多次训练比较，主观设定一个我们认为相对最优的值。在此过程中可以看出，

2023-12-08 11:50:46 868

转载自注意力机制优化方向

在自注意力机制中，这种方法可以用于快速计算P，方法是在Q和K上应用LSH，仅对近似的元素进行计算，而非直接进行Q和K的全量计算。为了简化scaled-dot product attention的复杂度，通常会假设序列中的每一个位置并不是同等重要的，比如一个词可能跟它附近的词比较相关，距离太远的词并不一定需要关注。，计算全局自注意力（每个元素与其他每个元素相乘）会变得非常困难，因此也就有了后来的一些研究对自注意力机制的复杂度进行优化，当然这样做也可能会失去自注意力能够处理长距离上下文的优势。

2023-11-29 17:33:57 219

转载联邦学习简介之 FedProto: Federated Prototype Learning across Heterogeneous Clients 阅读笔记

FedProto: Federated Prototype Learning across Heterogeneous Clients》发表在 2022 年的人工智能顶级会议 AAAI 上，此篇论文旨在解决联邦学习客户端模型和数据异构的问题，并设计了一个简洁且优美的原型学习方法。此篇论文是我个人非常喜欢的一篇联邦学习论文，此方法简洁优美且有效！此篇博文对其核心思想进行阐述，希望可以帮助对此篇论文感兴趣的小伙伴～～～注：笔者水平有限，若有描述不当或错误的地方，敬请大家批评指正！

2023-11-22 17:37:18 148

转载 Pytorch构建数据集——torch.utils.data.Dataset()和torch.utils.data.DataLoader()

dataset：这个就是pytorch已有的数据读取接口（比如torchvision.datasets.ImageFolder）或者自定义的数据接口的输出，该输出要么是torch.utils.data.Dataset类的对象，要么是继承自torch.utils.data.Dataset类的自定义类的对象。torch.utils.data.Dataset是代表自定义数据集方法的类，用户可以通过继承该类来自定义自己的数据集类，在继承时要求用户重载__len__()和__getitem__()这两个魔法方法。

2023-10-31 11:39:23 495

原创 [pytorch] 使用CrossEntropyLoss()交叉熵损失函数报错：Target 2 is out of bounds.

原因是因为数据集中的标签是1和2，不是0和1。一般会认为处理二分类问题，模型的输出就设置为2。但是由于CrossEntropyLoss()函数内置了softmax()函数将标签转换为独热编码的形式。如数据集中的标签是1和2，则会被转换成(0, 0, 1)或(0, 1, 0)，但是模型的输出只有2，如(0.4, 0.6)，两个输入的形状不一样，所以报错。今天在处理二分类问题时，使用CrossEntropyLoss()作为损失函数，出现了Target 2 is out of bounds.这样的报错。

2023-10-26 17:21:19 440

原创 python random_split函数

Attention: [*,*]括号中的两个数字之和应该与len(data)相同。

2023-10-26 12:07:03 310

hadoop-windows

Z-Stack API

《Z-Stack API 接口》中文版

空空如也