- 博客(7)
- 收藏
- 关注
原创 [torch]AdamW的weight_decay参数设置失效?
但是发现weight_decay = [1e-2, 5e-2, 5e-6]的时候,输出的结果都是一样的。这就十分奇怪,甚至小数点后面好几位都是相同的。在影像分类任务,resnet50/34/18调参的时候,因为过拟合比较严重,所以尝试使用了weight_decay来进行调参。都没有结果这个问题,不知道该怎么办,特在此记录。
2024-04-14 23:49:18 195 1
原创 [torch] 关于torchvision 中 multihead attention 的使用方法
【代码】[torch] 关于torchvision 中 multihead attention 的使用方法。
2024-04-13 16:09:30 103
原创 [torch] 使用Linear进行sin函数预测
这一篇文章主要是考虑序列预测问题,可能会使用到RNN/LSTM,或者也直接使用Linear预测。
2024-03-21 18:20:28 200
原创 [torch] DistributedDataParallel 训练框架 + 梯度累积模板
之前使用dataparallel发现data是自动划分到不同gpu上的,十分不方便。而ddp可以自己设计一个sampler,然后启动不同进程,互不干扰,好用很多。
2024-03-15 20:59:38 337
原创 TypeError: cannot assign ‘torch.cuda.FloatTensor’ as parameter ‘CLS_TOKEN’
暂时还不知道深层原因,但是nn.Parameter不能够直接to_device。可以把里面的data调用。CLS变量的声明如下。
2024-03-10 09:53:01 351
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人