wzc-run-CSDN博客

原创遇到ModuleNotFoundError: No module named xxx

会发现，路径只有conda的lib库以及当前运行文件的路径，也就是"xxx/code/scripts"train.py需要import src.utils as utils。此时，python解释器当然是搜索不到src文件夹下的文件了。显然，不是因为缺少包导致的问题。打印下当前文件的搜索路径。

2024-03-19 14:42:45 161

原创关于为什么分类问题不能使用MSE

从本质上讲，交叉熵衡量的是同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布和预测概率分布之间的差异，所以交叉熵本质是概率问题，和几何上的欧式距离无关，在回归问题中才有欧式距离的说法。这就要求使用激活函数对最后一层进行处理，二分类使用sigmoid，多分类就使用softmax，这两个函数本质上是等价的。也是可以的，但是更多的是将回归问题转变为分类问题（离散化），然后使用交叉熵损失函数。，因此，只有在a被正确预测（a=1），且b和c都是相同值时，loss最小。

2024-02-29 23:10:18 880

原创关于DQN过估计的问题

关于DQN过估计的问题：double对DQN离散动作有用，对连续动作的ac框架没有用；clip对ac框架有用，对DQN也有用，但没必要，因为double已经可以了。

2024-01-31 23:06:05 849

原创论文笔记｜Not All Tasks Are Equally Difficult MultiTask Reinforcement Learning with Dynamic Depth Routing

论文笔记 Not All Tasks Are Equally Difficult-- Multi-Task Reinforcement Learning with Dynamic Depth Routing提出了一种动态深度路由（D2R）框架，该框架学习策略性地跳过某些中间模块，从而为每个任务灵活选择不同数量的模块;进一步引入了 ResRouting 方法来解决离策略训练期间行为和目标策略之间不同的路由路径问题

2024-01-14 20:17:40 881 1

原创论文笔记｜OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

论文阅读笔记，ICLR 2017的OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER，引入了稀疏门控专家混合层（MoE），由多达数千个前馈子网络组成。可训练的门控网络确定用于每个示例的这些专家的稀疏组合。

2024-01-08 13:30:26 1737

原创什么是HER（Handsight Experience Replay）

记录HER算法的核心内容。motivation：为了解决反馈稀疏的问题，修改目标，从而使有效回报数量变多问题formulation: 稀疏奖励的情况

2023-12-31 17:28:11 948

原创终端复用器tmux安装与使用

跑模型防止ssh连接中断--tmux的安装与使用在使用DDP(Huggingface 的accelerate，本质还是DDP) 单机多卡训练时，本来想着用nohup后台运行，这样就不用担心ssh断开连接了，但是DDP使用nohup出现了问题，训练一半的时候会突然中断（收到了中断的信号）nohup跑一段时间显示Message: 'Received 1 death signal, shutting down workers'，网上找到的解决方法并记录

2023-11-10 21:52:42 93 1

原创关于Transformer中的位置编码(Positional Encoding)

关于Transformer中的位置编码（The Positional Encoding）

2023-09-19 20:42:30 111

原创 HuggingFace Accelerate整合wandb记录实验

看了半天HuggingFace教程没看明白怎么添加其他wandb run的参数（我还是太菜了!），最后在wandb的教程中找到了…传入init_kwargs参数即可。

2023-03-24 01:24:05 642

原创 HuggingFace Accelerate解决分布式训练

由于项目代码比较复杂且可读性差…，尝试使用Hugging Face的Accelerate实现多卡的分布式训练。

2023-03-24 01:11:19 4398

原创 DL_CrossEntropyLoss使用注意事项

在使用CrossEntropyLoss 时，因为结合了LogSoftmax 和NLLLoss函数，不需要在输出层增加softmax，也不需要将label/target转换为onehot编码，如，label=2，不需要转化为001，当然输出层是输出C个值(C个类)。

2023-03-13 01:55:06 53

原创 RL_PPO

经典的强化学习（RL）算法，手写笔记PPO的推导过程

2023-03-07 18:35:19 142

原创 DL_残差网络(ResNet)

将网络学习目标改为学习残差函数，也就是目标值与预测值的差，通过一个跳跃连接可以解决梯度消失问题，这样就可以搭建更深的网络结构，得到更好的训练结果ResNet是何恺明何博士的辉煌战绩之一，是CNN图像处理史上的一件里程碑事件，主要有如下两点：（1）提出了残差网络结构，将网络的拟合对象转变为拟合残差。在一定程度上解决了模型退化问题以及网络的梯度消失/爆炸问题，突破了1000层的网络深度，使得大规模深度网络成为可能。（2）使用Batch Normalization加速训练（舍弃dropout）

2023-03-07 18:28:11 104

原创 ML_特征选择

过滤式特征选择方法：“选择”与“学习”独立包裹式特征选择方法：“选择”依赖“学习”嵌入式特征选择方法：“选择”与“学习”同时进行。

2023-03-07 18:24:22 74

原创 ML_k近邻(KNN)

k近邻(k-Nearest Neighbor, 简称kNN)是一种常用的监督学习方法，最简单和最常用的分类算法之一，区别于K-means算法。基本原理就是根据某种距离度量找出训练集中与其最靠近的k个训练样本，然后根据这k个“邻居”的信息进行预测。在分类任务中，可使用“投票法”；在回归任务中，使用“平均法“。

2023-03-07 18:21:18 100

原创 ML_流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法，在局部具有欧式空间的性质，能用欧式距离来进行距离计算，因此，高维空间相似的数据点，映射到低维空间距离也是相似的。

2023-03-07 18:19:18 57

原创 ML_主成分分析(PCA)

PCA是一种非监督降维方法，无参数技术，没有主观参数的介入，通过计算数据协方差矩阵，并对其特征值分解，可得到变换矩阵，实现降维。

2023-03-07 18:16:48 80

原创 ML_线性判别分析(LDA)

LDA算法是一种有监督的机器学习算法，对于分类问题，给定训练集，设法将高维样本数据投影到最佳判别向量空间，以达到特征提取的效果，投影后使得同类样本的投影点尽可能接近，不同类样本的投影点尽可能相互远离。

2023-03-07 18:14:46 102

原创 MAC应用无法打开或提示“来自身份不明开发者”

MAC应用无法打开或提示“来自身份不明开发者”原因是mac系统默认只能安装靠谱渠道（有苹果审核的 Mac App Store）下载的软件或被认可的人开发的软件。解决方法：设置→安全与隐私→通用将“允许应用来自”，改为⚠️如果没有任何来源这一项在终端输入以下命令：sudo spctl --master-disable回车，重新打开设置里的隐私与安全，就有了参考文章：https://xclient.info/a/74559ea2-7870-b992-ed53-52a9d988e382.h

2022-01-05 22:10:21 14560

转载 Chrome V8引擎介绍

随着Web相关技术的发展，JavaScript所要承担的工作也越来越多，早就超越了“表单验证”的范畴，这就更需要快速的解析和执行JavaScript脚本。V8引擎就是为解决这一问题而生，在node中也是采用该引擎来解析JavaScript。V8是如何使得JavaScript性能有大幅提升的呢？通过对一些书籍和文章的学习，梳理了V8的相关内容，本文将带你...

2019-12-27 20:54:15 209

转载在其他数都出现偶数次的数组中找到出现奇数次的数

题目　　给定一个数组arr，其中只有一个数出现了奇数次，其他数都出现了偶数次，打印这个数。进阶问题　　有两个数出现了奇数次，其他数出现了偶数次，打印这两个数。要求　　时间复杂度O(N)，空间复杂度(1)。　　基本思路　　整数n与0异或的结果是n，整数n与整数n异或的结果...

2019-12-25 18:15:05 133

转载 WFST学习笔记（一）

文献：Speech Recognition Algorithms Using Weighted Finite-State Transducers语音识别概述语音识别统计框架语音分析/特征提取声学模型子词模型和发音字典上下文相关音素模型语言模型解码WFSTFAFA基本性质半环理论基本操作转换器组合算法优化算法：确定化、weight pushing 、minimiza...

2019-11-10 15:19:10 420

原创 java学习笔记|输入输出流（一）

java学习笔记|输入输出流（一）File类File类在java.io中，主要用来获取文件本身的一些信息，如文件所在的目录、文件的长度等，不能对文件的内容进行读写构造方法：Public File(String name)File file1=new File("D:\\enjoy\\data1.txt"); File file2=new File("data\\data2.txt"); ...

2019-11-04 21:31:57 567

原创 java的四种访问控制权限

java的四种访问控制权限privatedefaultprotectedpublic同一类√√√√同一包中的类√√√子类√√其他包中的类√

2019-10-24 22:27:16 133

qq_40519226的博客